版本: hanlp 2.0.0a37
tokenizer = hanlp.load(‘CTB6_CONVSEG’)
tagger = hanlp.load(‘CTB5_POS_RNN’)

以上1.7.x分词正常
版本: hanlp 2.0.0a37
tokenizer = hanlp.load(‘CTB6_CONVSEG’)
tagger = hanlp.load(‘CTB5_POS_RNN’)

以上1.7.x分词正常
欢迎反馈,反馈时请附上模型名称。我猜这是PKU模型,通常人民日报是不可能出现“性交”这种词语的,可以预见对这类词语支持较差。过些天会像1.x那样,发布一个亿级large语料库上的cws模型。
tokenizer = hanlp.load(‘CTB6_CONVSEG’)
tagger = hanlp.load(‘CTB5_POS_RNN’)
期待新模型😄

连环画、连环计 不能正确分词


卡拉OK 未被识别为一个词。

手把手 分词不正确。

何日君再来

从上到下

各重三斤、各重两斤、各重四斤 没错。 各重五斤 出错。

第多少、第若干 出错

一小瓶水、两大车货

从一 数到 十
我从 早忙到 晚

购买毛巾 被 92条

这事需要 三 个人 干, 个 人 应 分开
另外,这事
三个人干 ,
意思同 “需要”,不应标记为 DER
看上去这版模型很喜欢双字词,正在调新的模型。

马是
现代汉语确实也喜欢用双音节词。

颁布 法律
还是应分为两个词

\color{blue}{游戏} \color{red}{中} \color{red}{共} \color{green}{赢} \color{yellow}{了}
“中”“共” 应分开

\color{red}{共赢}
“共赢” 应连起来

\color{red}{朝} \color{blue}{南}
应该分开