2.x分词疑似误分汇总,欢迎跟帖,目标当然是为了hanlp做得更好😄

版本: hanlp 2.0.0a37
tokenizer = hanlp.load(‘CTB6_CONVSEG’)
tagger = hanlp.load(‘CTB5_POS_RNN’)

%E4%BA%A4%E9%80%9A

以上1.7.x分词正常

1 Like

欢迎反馈,反馈时请附上模型名称。我猜这是PKU模型,通常人民日报是不可能出现“性交”这种词语的,可以预见对这类词语支持较差。过些天会像1.x那样,发布一个亿级large语料库上的cws模型。

tokenizer = hanlp.load(‘CTB6_CONVSEG’)
tagger = hanlp.load(‘CTB5_POS_RNN’)


期待新模型😄