此句中 或 应为副词
老呆 ——> 老 . 呆
百把、千把、万把 ……
应视为概数词,“块”则做量词
版本 hanlp 2.0.0a44
tokenizer: CTB6_CONVSEG
tagger: CTB5_POS_RNN_FASTTEXT_ZH
第一个 “正则” 没问题,第二个“正则”被分开
Hanlp v1.7.7 两个“正则” 都被分开。
版本 hanlp 2.0.0a44
tokenizer: CTB6_CONVSEG
tagger: CTB5_POS_RNN_FASTTEXT_ZH
“千克” 未被识别成一个词
Hanlp v1.7.7
“千克” 也被分开
有意思,CTB6没有千克这个词。large语料标注一致性还有待提高。
就中 ——> 就 中
“外交部长” 应识别为一个词
这个例子很有意思,下个版本准备上联合模型。
从语义上,这两个句子没有区别,而句法分析结果则不一样了。
实际上现在的 2.0.0aX 版本 “桌上”、“山上”这类词仍然是被分开的,建议新版本仍然保持这种“分开”的分法,从而使得句法分析的结果保持一致性。
上图“桌上”是合起来的,你的意思是建议将其分开吗?
在 hanlp 2.0.0a44(及之前2.x版本) 、 包括前一段时间的“线上版本”里,诸如“桌上”、“山上”、“椅下”之类的 表示 “单字名词” + “方位” 的词都是被分开的。
最近,发现“线上版本”的这类词都被变成了一个词(与1.7x一致了)
如果把"桌"、"上"分开, 那么 “桌上有个书包” 与 “桌子上有个书包” 的 “句法依存” 、“语义依存” 分析结果是一致的。
如果“桌上”不分开,那么“桌上有个书包” 与 “桌子上有个书包” 在语义相同的情况下, “句法依存” 分析结果是不一致的。
而 “桌上有个书包” 与 “大哥有个书包” 的 “句法依存” 分析结果则是一致的。
所以,我觉得要获得更佳的 “句法依存” 、“语义依存” 分析效果,这类“单字名词” + “方位词” 沿用
hanlp 2.0.0a44(及以前版本/模型)的分开方式更好。
似乎没有 “失为” 这个词, 只有 “不失为”
诸如 “吃得下饭”、“放得下心”、“走得动路” …… 之类的 离合词, 似应完全拆开
数比 ——> “数” “比”
马来 ——> “马” “来"
“们” 不应为 “VV”
看 连环画