第一次分词非常慢

yidasanqian · November 6, 2020, 5:52am

版本：portable-1.7.5

第一次调用分词：NLPTokenizer.segment(word)
查看日志耗时5秒左右

后续分词就可以在毫秒级别了。

请问可以预先初始化吗？

bkb · November 11, 2020, 3:16pm

现在很多的分词都是延时启用的在你第一次调用的时候才会生成一些结构放在内存里
后续就快了
如果想主动初始化的话可以看看有没有类似于initialize的方法

hgz · November 15, 2020, 9:52am

(个人想法哈)
当import pyhalp时，应该只会做一些函数加载任务，像分词模型之类的应该是不会创建和加载(就是你说的初始化)的，不然工具包中那么多功能接口对应的模型都创建和加载会花费很多内存和时间的，在你调用具体接口时才会初始化模型。

solike · November 16, 2020, 6:10am

我在静态代码块中加载了hanlp的debug是可以的

flyingbat · November 17, 2020, 2:24am

你优先运行一次词典，把缓存一起部署就好了

yangfuyi · December 1, 2020, 10:44pm

分词问题
1.速度
分词慢的问题值得研究。使用一个千万级的词库。如何研究一个快速分词大的方法。使用多种方法分词，
最后还的研究《快速分词法》。
2.未登录词问题
一直是NLP的难点。
每次分词，要具有未登录词自动发现以及半自动词库更新工程，分个7，8次。就基本解决未登录的问题。
依靠词库自动更新处理软件。
原理：是分节自动切断法。
例如：我们热爱和平。IF 热爱是词 THEN 我们和平也是词