为何 JAVA 版本和 PYTHON 版本分词结果不一样？

longslee · November 19, 2021, 7:39am

我在使用 pyhon 版本的时候：
HanLP = hanlp.load(hanlp.pretrained.mtl.CLOSE_TOK_POS_NER_SRL_DEP_SDP_CON_ELECTRA_SMALL_ZH) # 世界最大中文语料库
HanLP(‘尊敬的明天您好，明天你的手机号就要停机了’)

这时能明确的区分第一个“明天”是【PERSON】，第二个“明天”是【DATE】

但是我在使用 JAVA ，不管是 standard 还是 NLP tokenizer，“明天”的结果都是 [t]，表示时间
NLPTokenizer.segment(“尊敬的明天您好，明天你的手机号就要停机了”)

873101411 · December 7, 2021, 1:56am

你使用的Python版本是HanLP2.1版本，用到了深度学习理论模型。
java版本是HanLP1.X版本，是机器学习理论模型。
两者在性能准确率上有一些差异化。