2.x分词疑似误分汇总,欢迎跟帖,目标当然是为了hanlp做得更好😄

版本: hanlp 2.0.0a37
tokenizer = hanlp.load(‘CTB6_CONVSEG’)
tagger = hanlp.load(‘CTB5_POS_RNN’)

%E4%BA%A4%E9%80%9A

以上1.7.x分词正常

1 Like

欢迎反馈,反馈时请附上模型名称。我猜这是PKU模型,通常人民日报是不可能出现“性交”这种词语的,可以预见对这类词语支持较差。过些天会像1.x那样,发布一个亿级large语料库上的cws模型。

1 Like

tokenizer = hanlp.load(‘CTB6_CONVSEG’)
tagger = hanlp.load(‘CTB5_POS_RNN’)


期待新模型😄

24

连环画、连环计 不能正确分词

46

04

卡拉OK 未被识别为一个词。

00

手把手 分词不正确。

09

何日君再来

48

33

各重三斤、各重两斤、各重四斤 没错。 各重五斤 出错。

09 46

第多少、第若干 出错

12 06

一小瓶水、两大车货

47 38

从一 数到

我从 早忙到

52

购买毛巾 92条

20 21 40
这事需要 三 个人 干, 个 人 应 分开

另外,这事 :ideograph_advantage: 三个人干 , :ideograph_advantage: 意思同 “需要”,不应标记为 DER

看上去这版模型很喜欢双字词,正在调新的模型。

24

马是

现代汉语确实也喜欢用双音节词。

42

颁布 法律
还是应分为两个词

59
\color{blue}{游戏} \color{red}{中} \color{red}{共} \color{green}{赢} \color{yellow}{了}

“中”“共” 应分开

47

\color{red}{共赢}

“共赢” 应连起来

24

\color{red}{朝} \color{blue}{南}
应该分开