到底是单模型流水线效果好还是一个多任务模型好？

fishfree · January 7, 2025, 11:26am

README里说：根据我们的最新研究，多任务学习的优势在于速度和显存，然而精度往往不如单任务模型。

但现在不都更讲究端对端的方式吗？流水线模式中，上游误差会导致下游误差越来越大。

到底哪种好呢？如果单任务流水线更好，那又是为什么呢？

hankcs · January 10, 2025, 3:44am

这句话比较的是单任务vs多任务，你说的是流水线vs端到端，不是同一种概念。建议读一读论文。

fishfree · February 6, 2025, 12:03am

感谢！请问下论文结论中提到“干细胞注意力头无法成为下游多任务的全能选手”，Repo的README说改用pipeline模式来扬长避短。但我看MTL预训练模型比单任务的性能指标也差不太多，这是什么原因呢？编程技巧 or 调参技巧 or Transformers架构优化 or 其他？