发布了更准确的中文粗分/细分模型

hankcs · June 12, 2022, 8:55pm

最初通过问卷调查【投票】HanLP2.1的细分标准是否不够细？发现75%的用户对HanLP的细分标准表示满意，剩下的25%统一觉得细分标准有点粗。另外，也有AMR用户和SRL用户表示相应模型对否定句式的处理不佳：

经过调查，都与细分模型的标准有关。为此，我们组织人力对内部1亿字的语料库进行了校对。分别以CTB和MSR两套标准作为细分和粗分的参考，对语料库中不规范的样本进行校正。在校正后的语料上，我们训练并发布了small体积的分词模型，并且取得了可喜的准确率提升：

	粗分F1	细分F1
旧版	96.92	97.42
新版	98.30	98.11

从此，HanLP的分词标准将以此次更新为基石。MTL模型正在训练中，预计一周后和线上restful服务同步更新。

最后，感谢广大用户和HanLP一起追求最专业最先进的NLP技术。

AliBug · June 13, 2022, 2:28am

hanlp.pretrained.tok.FINE_ELECTRA_SMALL_ZH= 'https://file.hankcs.com/hanlp/tok/close_tok_fine_electra_small_20220612_114112.zip'

hanlp.pretrained.tok.COARSE_ELECTRA_SMALL_ZH= 'https://file.hankcs.com/hanlp/tok/close_tok_coarse_electra_small_20220612_113852.zip'

是否意味着上面这两个更新了的模型是目前效果最好的细／粗粒度模型？

hankcs · June 13, 2022, 3:02am

是的，再加上覆盖了这么多的领域，放眼全世界也是最准确的。

jean2020 · June 18, 2022, 7:48am

稍后下载更新模型测试一下。

kylewangt · June 27, 2022, 1:14am

准确度很棒，但是速度方面有点慢哦。

jidlin · August 22, 2022, 8:23am

你好，我这边发现离线测试分词器粗分词与restfull线上接口效果有差异，想问下线上接口用的哪个模型呢

sentence = ‘厂商很不给力啊，画风一般，操作手感还行，音效不错，游戏平衡做的不好’
调用线上restful接口的分词结果如下：
{‘tok/coarse’: [[‘厂商’,
‘很’,
‘不给力’,
‘啊’,
‘，’,
‘画风’,
‘一般’,
‘，’,
‘操作’,
‘手感’,
‘还行’,
‘，’,
‘音效’,
‘不错’,
‘，’,
‘游戏’,
‘平衡’,
‘做’,
‘的’,
‘不好’]]}

本地加载模型结果如下，会把"不给力"分开：

vnode · December 27, 2022, 11:54am

+1 有没有人可以解答下