README里说: 根据我们的最新研究,多任务学习的优势在于速度和显存,然而精度往往不如单任务模型。
但现在不都更讲究端对端的方式吗?流水线模式中,上游误差会导致下游误差越来越大。
到底哪种好呢?如果单任务流水线更好,那又是为什么呢?
README里说: 根据我们的最新研究,多任务学习的优势在于速度和显存,然而精度往往不如单任务模型。
但现在不都更讲究端对端的方式吗?流水线模式中,上游误差会导致下游误差越来越大。
到底哪种好呢?如果单任务流水线更好,那又是为什么呢?
这句话比较的是单任务vs多任务,你说的是流水线vs端到端,不是同一种概念。建议读一读论文。
感谢!请问下论文结论中提到“干细胞注意力头无法成为下游多任务的全能选手”,Repo的README说改用pipeline模式来扬长避短。但我看MTL预训练模型比单任务的性能指标也差不太多,这是什么原因呢?编程技巧 or 调参技巧 or Transformers架构优化 or 其他?