2.x分词疑似误分汇总,欢迎跟帖,目标当然是为了hanlp做得更好😄

已经校正,大家会认可“搬迁合同”是一个词吗?

这个我再考虑一下,有许多知名语料库的确是作一个词的。比如

udc.txt:現存/VERB 的/PART 雙吉/PROPN 寺/PART 建築/NOUN 為/AUX 明朝/PROPN 建築/NOUN ,/PUNCT 整體/NOUN 坐北/VERB 朝南/VERB ./PUNCT

这个例子我是从 语义依存分析 例子找来的,从语义分析的角度来看,我觉得细粒度应该更有价值

30

从句法分析来看,在1.x里,搬迁、合同分为两个词,并不影响句法分析的结果, “搬迁”就是修饰“合同”的。

29

我觉得对于类似的大量合成词,可以采用NER的方式来解决: 拆迁合同、服务中心…… 在NER的时候合成一个词,给需要的人。

03

还有就是 1.x 里 很多方位词 在 2.0 里 被 标为了名词, 在语义分析里, 可能类似 “趋向角色” 、“空间角色”就分析不出来了。

这个是受制于CTB语料库的。

北方 NN
和 CC
南方 NN
的 DEG
经济 NN
联系 NN

考虑训练一个人民日报POS模型跟下游模型混合用。

这个可以的

59

牛奶喝

33

\color{red}{大多} \color{blue}{少岁} ——> 大 \color{green}{多少}

1 Like

53

\color{green}{演完}

19

及物 动词

54

皮蒸制

15

学雷锋小组
NER不对

01

的确良

WX20200313-163104
我也来加一个,最近使用中发现的,2.0中 干净 认为是动词,1.x中是形容词,不知道是否与语料库有关

我觉得是ctb规模太小了

嗯嗯,谢谢hankcs老师指点。在使用的过程中,其实也遇到了一些其他的误分情况,就像 比较省力气这句话, 字在2.0的识别上就会被认定为名词,应该也是语料库中缺少类似的预训练案例吧。 :grinning:

05

“蟒山” 与 “市” 应分开

53

12

参过 ——> 参、过

46

个气