2.0一些数词之后的词被错误标注为量词

11

12

59

30

16

以上1.x分词标注无问题。

有意思,看来lstm聪明过头了,字形的特征还有待加强。

@hankcs 大概2003年我搞了一版简单的分词,对分词一直比较感兴趣。去年我跟张华平聊过,我俩都觉得目前DL的方式,对分词没有太好的办法,除非加大训练素材,但是高质量的素材现在又找不到,这是个门槛

1 Like

我赞同两位的观点,DL用来做分词是杀鸡用牛刀。目前HanLP2.0 alpha里的分词只是在一两个数据集上跑出了高分,离正式生产还有一段距离。

我认为DL做分词有前景:

  1. 高质量大规模分词语料库交给商业公司做,并且盈利,形成产业。
  2. 我未来会探索许多无监督、半监督的手段,这些都是DL的拿手好戏。

36

5

测了一下,好像所有的 数词 + 只, “只”都被标成了 AD

建议在分词过程中加入量词数据集,并根据语义确定选定量词。

2.1的CTB标准是正确的。CTB的标注质量非常高,建议采用。