发布了更准确的中文粗分/细分模型

最初通过问卷调查 【投票】HanLP2.1的细分标准是否不够细? 发现75%的用户对HanLP的细分标准表示满意,剩下的25%统一觉得细分标准有点粗。另外,也有AMR用户和SRL用户表示相应模型对否定句式的处理不佳:

  1. amr解析日期错误 · Issue #1740 · hankcs/HanLP · GitHub
  2. SRL对于否定成分的处理

经过调查,都与细分模型的标准有关。为此,我们组织人力对内部1亿字的语料库进行了校对。分别以CTBMSR两套标准作为细分和粗分的参考,对语料库中不规范的样本进行校正。在校正后的语料上,我们训练并发布了small体积的分词模型,并且取得了可喜的准确率提升:

粗分F1 细分F1
旧版 96.92 97.42
新版 98.30 98.11

从此,HanLP的分词标准将以此次更新为基石。MTL模型正在训练中,预计一周后和线上restful服务同步更新。

最后,感谢广大用户和HanLP一起追求最专业最先进的NLP技术。

3 Likes
hanlp.pretrained.tok.FINE_ELECTRA_SMALL_ZH= 'https://file.hankcs.com/hanlp/tok/close_tok_fine_electra_small_20220612_114112.zip'

hanlp.pretrained.tok.COARSE_ELECTRA_SMALL_ZH= 'https://file.hankcs.com/hanlp/tok/close_tok_coarse_electra_small_20220612_113852.zip'

是否意味着上面这两个更新了的模型是目前效果最好的 细/粗 粒度模型?

是的,再加上覆盖了这么多的领域,放眼全世界也是最准确的。

2 Likes

稍后下载更新模型测试一下。

1 Like

准确度很棒,但是速度方面有点慢哦。

你好,我这边发现离线测试分词器粗分词与restfull线上接口效果有差异,想问下线上接口用的哪个模型呢

sentence = ‘厂商很不给力啊,画风一般,操作手感还行,音效不错,游戏平衡做的不好’
调用线上restful接口的分词结果如下:
{‘tok/coarse’: [[‘厂商’,
‘很’,
‘不给力’,
‘啊’,
‘,’,
‘画风’,
‘一般’,
‘,’,
‘操作’,
‘手感’,
‘还行’,
‘,’,
‘音效’,
‘不错’,
‘,’,
‘游戏’,
‘平衡’,
‘做’,
‘的’,
‘不好’]]}

本地加载模型结果如下,会把"不给力"分开: