中文多标签分类有什么好思路吗

wangchichi1999 · November 20, 2020, 4:00pm

有些语料的标签十分稀疏，造成了标签的长尾效应，在这些语料上训练loss迟迟不下降，不知道有么有什么好办法可以尽可能减少抽数据集还能得到好结果呢

bkb · November 25, 2020, 8:44am

是有些标签的数据很少的意思吗
重采样吧

asp · November 25, 2020, 1:54pm

我也想有个好的标签提取工具呢。

loveJasmine · January 20, 2021, 2:53pm

有一个很有意思的方案，就是多个标签用表示为一个01的二进制序列

然后按照序列生成任务来做，这样可以考虑到标签之间的相关性。。

hankcs · January 20, 2021, 4:00pm

@callzhang 最近贡献了多标签分类的实现：

NLPpupil · January 21, 2021, 3:14pm

输出层的激活函数从softmax改成sigmoid，损失函数从普通categorical_crossentropy改成binary_crossentropy。详见https://zhuanlan.zhihu.com/p/183957063 8.3

wangchichi1999 · January 22, 2021, 3:04am

one-vs-all 确实是一个非常好的方式！

wangchichi1999 · January 22, 2021, 3:05am

Thanks！最近在考虑结合序列生成和分类做multi-task

zyh3826 · March 29, 2021, 1:48am

确实，+10086