2.x分词疑似误分汇总，欢迎跟帖，目标当然是为了hanlp做得更好😄

AliBug February 11, 2020, 11:34am #1

版本: hanlp 2.0.0a37
tokenizer = hanlp.load(‘CTB6_CONVSEG’)
tagger = hanlp.load(‘CTB5_POS_RNN’)

%E4%BA%A4%E9%80%9A

以上1.7.x分词正常

4 Likes

hankcs February 11, 2020, 4:12pm #2

欢迎反馈，反馈时请附上模型名称。我猜这是PKU模型，通常人民日报是不可能出现“性交”这种词语的，可以预见对这类词语支持较差。过些天会像1.x那样，发布一个亿级large语料库上的cws模型。

2 Likes

AliBug February 12, 2020, 4:19am #3

tokenizer = hanlp.load(‘CTB6_CONVSEG’)
tagger = hanlp.load(‘CTB5_POS_RNN’)

期待新模型😄

AliBug February 29, 2020, 4:47am #4

连环画、连环计不能正确分词

AliBug March 2, 2020, 2:09am #5

卡拉OK 未被识别为一个词。

AliBug March 2, 2020, 4:13am #6

手把手 分词不正确。

AliBug March 2, 2020, 6:38am #7

何日君再来

AliBug March 2, 2020, 7:22am #8

从上到下

AliBug March 2, 2020, 7:46am #9

各重三斤、各重两斤、各重四斤没错。 各重五斤 出错。

AliBug March 2, 2020, 7:58am #10

第多少、第若干 出错

AliBug March 2, 2020, 8:21am #11

一小瓶水、两大车货

AliBug March 2, 2020, 9:07am #12

从一数到十

我从 早忙到 晚

AliBug March 2, 2020, 9:34am #13

购买毛巾被 92条

AliBug March 2, 2020, 10:36am #14

这事需要三个人干，个人应分开

另外，这事三个人干，意思同 “需要”，不应标记为 DER

hankcs March 2, 2020, 9:45pm #15

看上去这版模型很喜欢双字词，正在调新的模型。

AliBug March 3, 2020, 8:52am #16

马是

现代汉语确实也喜欢用双音节词。

AliBug March 3, 2020, 9:02am #17

颁布法律
还是应分为两个词

AliBug March 4, 2020, 11:36am #18

\color{blue}{游戏} \color{red}{中} \color{red}{共} \color{green}{赢} \color{yellow}{了}

“中”“共” 应分开

AliBug March 4, 2020, 11:41am #19

\color{red}{共赢}

“共赢” 应连起来

AliBug March 4, 2020, 12:36pm #20

\color{red}{朝} \color{blue}{南}
应该分开