发布了CTB9_POS_ALBERT_BASE

hankcs · October 11, 2020, 2:41am

如变量名所述，一个CTB9上训练的ALBERT_BASE词性标注模型，没什么新意，accuracy: 0.9356 - speed: 360.12 sample/sec。CTB9是个挺新挺难的数据集，因为含有微博之类的数据源。目前的SOTA是ACL2020上的94.88。该论文需要外部parser提前进行依存句法分析，因为词性本来就是句法树的non-terminal，所以相互可以提供借鉴。但句法分析的开销比词性标注多一两个数量级，有点本末倒置了，对实际生产意义不大。再者就是glyce的93.15，略低于ALBERT，似乎中文的字形带来的改进还是比不上Transformer。

总之有新意的不一定适合生产环境吧，也请不要对HanLP在新意方面有过度期待，有新意的话肯定得在paper里。

下个版本这些pipeline将做成联合任务。