发布了CTB9_POS_ALBERT_BASE

如变量名所述,一个CTB9上训练的ALBERT_BASE词性标注模型,没什么新意,accuracy: 0.9356 - speed: 360.12 sample/sec。CTB9是个挺新挺难的数据集,因为含有微博之类的数据源。目前的SOTA是ACL2020上的94.88。该论文需要外部parser提前进行依存句法分析,因为词性本来就是句法树的non-terminal,所以相互可以提供借鉴。但句法分析的开销比词性标注多一两个数量级,有点本末倒置了,对实际生产意义不大。再者就是glyce的93.15,略低于ALBERT,似乎中文的字形带来的改进还是比不上Transformer。

总之有新意的不一定适合生产环境吧,也请不要对HanLP在新意方面有过度期待,有新意的话肯定得在paper里。

下个版本这些pipeline将做成联合任务。