Hanlp加载2G用户词典，用时太慢，求助优化方法

TommyWongww · July 15, 2020, 3:36am

场景是这样的，需要加载大量级用户词典，量级在一千万以及大小在2G左右，在hanlp中插入的时候，效率很慢，请问有什么优化的解决办法吗

luoy2 · July 16, 2020, 7:38am

用flask gunicorn做个服务，加载完了放入内存就不要动他了？

solike · July 16, 2020, 7:49am

优秀，这就搞一个！！

luoy2 · July 16, 2020, 9:04am

workers = 2
threads = 2
worker_class = 'gthread'
worker_connections = 2000
worker_tmp_dir = '/dev/shm'
timeout = 120
keepalive = 2
max_requests = 1000
max_requests_jitter = 100

给你个简单的gunicorn配置。由于tensorflow会有内存/显存溢出，所以需要做max_requests让线程处理一定数量后自己挂掉释放内存~

AliBug · July 16, 2020, 1:15pm

好办法！

qxc · July 17, 2020, 1:24am

我加载1G的模型直接GC爆了。又要改烦死了，笔记本真的不够用啊

hankcs · July 17, 2020, 5:59pm

《提问的智慧》，这个问题其实已经有很多讨论了，希望以后能搜索并引用这些资料。

haojun186 · August 8, 2020, 2:32am

遇到同样问题，解决了吗？