发布了更准确的中文粗分/细分模型

最初通过问卷调查 【投票】HanLP2.1的细分标准是否不够细? 发现75%的用户对HanLP的细分标准表示满意,剩下的25%统一觉得细分标准有点粗。另外,也有AMR用户和SRL用户表示相应模型对否定句式的处理不佳:

  1. amr解析日期错误 · Issue #1740 · hankcs/HanLP · GitHub
  2. SRL对于否定成分的处理

经过调查,都与细分模型的标准有关。为此,我们组织人力对内部1亿字的语料库进行了校对。分别以CTBMSR两套标准作为细分和粗分的参考,对语料库中不规范的样本进行校正。在校正后的语料上,我们训练并发布了small体积的分词模型,并且取得了可喜的准确率提升:

粗分F1 细分F1
旧版 96.92 97.42
新版 98.30 98.11

从此,HanLP的分词标准将以此次更新为基石。MTL模型正在训练中,预计一周后和线上restful服务同步更新。

最后,感谢广大用户和HanLP一起追求最专业最先进的NLP技术。

2 Likes
hanlp.pretrained.tok.FINE_ELECTRA_SMALL_ZH= 'https://file.hankcs.com/hanlp/tok/close_tok_fine_electra_small_20220612_114112.zip'

hanlp.pretrained.tok.COARSE_ELECTRA_SMALL_ZH= 'https://file.hankcs.com/hanlp/tok/close_tok_coarse_electra_small_20220612_113852.zip'

是否意味着上面这两个更新了的模型是目前效果最好的 细/粗 粒度模型?

是的,再加上覆盖了这么多的领域,放眼全世界也是最准确的。

1 Like

稍后下载更新模型测试一下。

1 Like

准确度很棒,但是速度方面有点慢哦。