Hanlp加载2G用户词典,用时太慢,求助优化方法

场景是这样的,需要加载大量级用户词典,量级在一千万以及大小在2G左右,在hanlp中插入的时候,效率很慢,请问有什么优化的解决办法吗

用flask gunicorn做个服务, 加载完了放入内存就不要动他了?

1 Like

优秀,这就搞一个!!

workers = 2
threads = 2
worker_class = 'gthread'
worker_connections = 2000
worker_tmp_dir = '/dev/shm'
timeout = 120
keepalive = 2
max_requests = 1000
max_requests_jitter = 100

给你个简单的gunicorn配置。 由于tensorflow会有内存/显存溢出, 所以需要做max_requests让线程处理一定数量后自己挂掉释放内存~

2 Likes

好办法!:+1:

:joy:我加载1G的模型直接GC爆了。又要改烦死了,笔记本真的不够用啊

《提问的智慧》,这个问题其实已经有很多讨论了,希望以后能搜索并引用这些资料。

1 Like

遇到同样问题,解决了吗?