HanLP.parseDependency传入大量的文本文件后报错问题,请大家帮帮忙

何博士报错文本.zip (7.2 KB)
您好!
首先在这里,我多谢您的指正!我发的问题应该是属于hanlp模块的,之前发到《自然语言处理入门》版块的错误,还请何博士原谅!
在这里,我把之前的问题更正下:我使用hanlp做句法依存分析的时候,报了如下错误:sentence = HanLP.parseDependency(content6)
jpype._jclass.ArrayIndexOutOfBoundsException: java.lang.ArrayIndexOutOfBoundsException: 1443
HanLP.parseDependency对传入的字符串文本是否有大小限呢?现在对传入的长字符串进行句法依存的时候出现了以上报错,大家有没有解决办法呢?谢谢了!

你的问题与所属板块《自然语言处理入门》是相关的吗?

如果大家有遇到相同的问题,有好的解决方法,能否教下我?谢谢了!:grin:

句法分析的对象当然是一个句子,传入这么长的文档没有意义。

谢谢大佬的回复!句法分析的对象是一个句子,这个是肯定的。我之所以有此一问,主要是基于下面原因:
现实应用中,大多数情况下肯定不仅仅对一个句子做句法分析,而是把文本段切成一句句的调用接口做句法分析。如果是在java语言下使用hanlp做上面的对长文本段肯定不会有此问题,但是使用python调用hanlp的jar包做句法分析接口的时候,如果遇到长文本的时候,也要把长文本切成一句一句传入句法分析接口,但是这样子会面临做一次句法分析会调用一次jvm的情况,非常耗费时间,不知道我这样子的想法是否正确,真诚的期待您的回复!

的确从python调用jvm非常损失速度。你可以用java写个接口并行分析一个string数组,然后在python端一次性传入一个数组。

嗯,我在前端把字符串文本切分为以逗号隔开的字符串,然后把这个长字符串传递到Hanlp的方法(模拟作者我新增了一个方法,然后该方法对传递过来的字符串以逗号切分成数组,再对数组中的每个元素做句法分析,再把所有句子做好的句法分析结果一起返回)。