线上和maven集成分词结果不一致

所述第二封装部分之间的接触表面是平坦表面。 这句话,线上的分词结果为

但是在本地maven集成最新版本之后的分词结果

请问这是什么原因?

这个我自己使用的时候也用到了,有可能是模型和词典数据的问题,等待大牛分享经验如何处理

使用源码包,查了一下词频,更不知道这个结果怎么来的了
image
image

这个问题在GitHub issue中回复了多次,提问前不搜索,请问这是什么原因?

阅读源码的精神的确值得赞赏,不过你需要补充一些NLP基础知识才能明白这些问题。HanLP的确开箱即用,但在有理论储备的人和一无所知的人手上,发挥出来的效果是天差地别的。

感谢作者的热心解答及批评指导,谢谢。因为我一直在做应用,所以对理论研究上确实存在很多的欠缺。
我查看了GitHub issue 上的结果,可能是模型、词典、算法或者是配置的问题,现在我使用的分词算法是“viterbi”。




设置 “强制使用用户词典”,用户词典中存在“部分”或者同时存在“部分”和“之间”,不存在“分之”,还是未能正确分词,是不是我哪里使用错了?
我删除了CoreNatureDictionary词典中的“分之”,结果正确了。

但是这么做会不会对带“分之”的分词产生影响?在不改变算法的情况下,怎么做才是最优办法呢?

这也不是批评,顶多算个建议吧,请不要往心里去。

这个问题其实GitHub上也反复回答过了,甚至FAQ里也有,你搜一下“bigram”“二元接续”关键字。

事实上,HanLP1.x开源5年了,能提的问题基本都回答完了,阳光之下没有新鲜事。作为用户,你们实在应该多搜索一下。

或者你们稍微补充一下基础理论,这些问题就能举一反三地解决了。

是得给自己充电了,十分感谢~