HanLp能满足所有切分词的需求吗?

Hanlp切分词有什么缺陷,这种缺陷有哪种切分词引擎可以补全,或者说要实现准确的切分词功能,一个Hanlp能不能解决,或者有没有好的组合引擎推荐?

统计为主,规则为辅的方式是最高效的。
对误切分或者未切分的使用自定义词典可达到较好的效果。

HanLp是自定义词典权限最重吗?

算法不保证词典中词语一定会被切分出来,世界上不存在此类算法。以为词典中词语一定会被切分出来,事实上,此现象是自相矛盾的。如在词典中添加川普,可以解决眼前的:普京与川普通电话。 但是在没注意到的地方,有更多类似“四川普通话银川普通高考的句子会发生错误。故HanLP坚持以统计为主、规则词典为辅的思路,力争即使加入”川普“这样词条,仍可以区分”四川普通人" 这样效果。

另外HanLP可以设置优先级。

  1. 不挂载词典。
  2. 词典低优先级。
  3. 词典高优先级。

可根据自身需求开启优先级。

1 Like

讲的很详细,明白了,十分感谢您的解答

非常高兴你能提出此类基础性问题!
同时也欢迎来HanLP中文社区提问此问题。我们会给您最详细的解答。

这个优先级在哪定义?