中文多标签分类有什么好思路吗

有些语料的标签十分稀疏,造成了标签的长尾效应,在这些语料上训练loss迟迟不下降,不知道有么有什么好办法可以尽可能减少抽数据集还能得到好结果呢

是有些标签的数据很少的意思吗
重采样吧

我也想有个好的标签提取工具呢。

有一个很有意思的方案,就是多个标签用表示为一个01的二进制序列

然后按照序列生成任务来做,这样可以考虑到标签之间的相关性。。

1 Like

@callzhang 最近贡献了多标签分类的实现:

输出层的激活函数从softmax改成sigmoid,损失函数从普通categorical_crossentropy改成binary_crossentropy。详见https://zhuanlan.zhihu.com/p/183957063 8.3

1 Like

one-vs-all 确实是一个非常好的方式!

Thanks!最近在考虑结合序列生成和分类做multi-task

确实,+10086