多进程跑pyhanlp的NER

先赞hanlp NER效果。
我想用pyhanlp刷一批文本数据,为后续建模做准备。数据量比较大,想用python中的多进程
StandardTokenizer = JClass(“com.hankcs.hanlp.tokenizer.URLTokenizer”)
seg = StandardTokenizer.segment
多进程就是把seg包进一个方法,放入pool中。无论如何改多进程,基本都卡在1000条刷完数据左右。请问有类似的情况吗?用python的大神们多进程刷过NER结果吗?

3 Likes

我也有相同的问题,单条数据计算时间在0.5s左右,但实际上来看实在太慢了。。。

2 Likes

我也没有解决这个问题,也看看有没有大神指导下

1 Like