2.x分词疑似误分汇总,欢迎跟帖,目标当然是为了hanlp做得更好😄

27

49

此句中 应为副词

56

老呆 ——> .

52

百把、千把、万把 ……
应视为概数词,“”则做量词

版本 hanlp 2.0.0a44

tokenizer: CTB6_CONVSEG
tagger: CTB5_POS_RNN_FASTTEXT_ZH

第一个 “正则” 没问题,第二个“正则”被分开


Hanlp v1.7.7 两个“正则” 都被分开。

版本 hanlp 2.0.0a44

tokenizer: CTB6_CONVSEG
tagger: CTB5_POS_RNN_FASTTEXT_ZH

纳斯达克
亚太区

版本 hanlp 2.0.0a44

tokenizer: CTB6_CONVSEG
tagger: CTB5_POS_RNN_FASTTEXT_ZH
57

“千克” 未被识别成一个词


Hanlp v1.7.7

“千克” 也被分开

1 Like

有意思,CTB6没有千克这个词。large语料标注一致性还有待提高。

10

就中 ——>


06

去掉前面的小句, “地塞米松” 能正确识别。
加上小句之后,“地塞米松” 变成 “地塞米”、“松”

20

“外交部长” 应识别为一个词

这个例子很有意思,下个版本准备上联合模型。

1 Like

18
45

从语义上,这两个句子没有区别,而句法分析结果则不一样了。
实际上现在的 2.0.0aX 版本 “桌上”、“山上”这类词仍然是被分开的,建议新版本仍然保持这种“分开”的分法,从而使得句法分析的结果保持一致性。

上图“桌上”是合起来的,你的意思是建议将其分开吗?

07
18
在 hanlp 2.0.0a44(及之前2.x版本) 、 包括前一段时间的“线上版本”里,诸如“桌上”、“山上”、“椅下”之类的 表示 “单字名词” + “方位” 的词都是被分开的。

最近,发现“线上版本”的这类词都被变成了一个词(与1.7x一致了)


19
24
16
如果把"桌"、"上"分开, 那么 “桌上有个书包” 与 “桌子上有个书包” 的 “句法依存” 、“语义依存” 分析结果是一致的。

如果“桌上”不分开,那么“桌上有个书包” 与 “桌子上有个书包” 在语义相同的情况下, “句法依存” 分析结果是不一致的。



而 “桌上有个书包” 与 “大哥有个书包” 的 “句法依存” 分析结果则是一致的。


所以,我觉得要获得更佳的 “句法依存” 、“语义依存” 分析效果,这类“单字名词” + “方位词” 沿用
hanlp 2.0.0a44(及以前版本/模型)的分开方式更好。

1 Like

01

似乎没有 “失为” 这个词, 只有 “不失为”

58
59
29

诸如 “吃得下饭”、“放得下心”、“走得动路” …… 之类的 离合词, 似应完全拆开

屏幕快照 2020-07-05 下午5.36.11

数比 ——> “数” “比”

屏幕快照 2020-07-05 下午6.27.08

马来 ——> “马” “来"

屏幕快照 2020-07-05 下午6.34.37

屏幕快照 2020-07-05 下午6.41.12

“们” 不应为 “VV”

屏幕快照 2020-07-07 下午7.05.04

看 连环画