2.x分词疑似误分汇总,欢迎跟帖,目标当然是为了hanlp做得更好😄

20

49

的话” 用在假设复句的前一个分句的后面,引出下文。

句1分的没问题,句2应该分开。

14
非执行董事 与 “” 能正确分
22
13
非企业法人 与 “” 不能正确分

22

词限 ——> 词,限

09 54

胳膊肘儿朝外拐 被识别为一个词
胳膊肘朝外拐 未被识别为一个词

实际上还有不少这种 “儿” 化音的词 有类似识别问题,不一一列举

胳膊肘儿朝外拐虽然是个熟语,还是拆开比较好。

31

54
自个 / 自个儿

自个 应该还是算做一个词的

17

13

成语现在基本上都是当成一个词了。
有一些四字成语以外的 俗语、历史名词,其意义已经固化,我倒是觉得就当成一个词也无妨,或者也可提供NER的方式。

19

45

的解 读人

15

种具 ——>

45

机关团

57
07

; NR
: CD
半角标点符号被错误标注词性

29
57
43

AABB / ABAB / ABB 之类的构词模式能否 训练训练

31

把门 ——> .

11

29

. ——> 把门

这个是语料库所致。

02

传真件 或当成一个词, 或 传真 . 件

39

59

此处 “一口” 似乎不应标记为 数量词

类似的还有很多 以“一”开头的词,有其特殊性……

10

56

36

04

58

的一方 ——> . 一方

19

28
45
hanlp v1.7.7(StandardTokenizer) / v2.0 将 " " 标记为 “cc”, 应为 名词

根据 The Lancaster Corpus of Mandarin Chinese,一口还可以被标注为副词。

紫云/nr 真人/n 意识/n 到/v 她/r 喜欢/v 陈/nr 王庭/nr 立即/d 一口/d 答应/v 了/u
同事/n 们/k 松/v 了/u 一口/m 气/n