模仿书中此demo写了一段代码:https://github.com/hankcs/pyhanlp/blob/master/tests/demos/demo_use_AhoCorasickDoubleArrayTrieSegment.py
使用如下代码加载了自定义词典
AhoCorasickDoubleArrayTrieSegment = JClass(“com.hankcs.hanlp.seg.Other.AhoCorasickDoubleArrayTrieSegment”)
Config = JClass(“com.hankcs.hanlp.HanLP$Config”)
path = Config.CustomDictionaryPath[tag2idx[tag]]
segment = AhoCorasickDoubleArrayTrieSegment().loadDictionary(path)
segment.enablePartOfSpeechTagging(True)
自定义词典为csv格式文件:
富耐恩,BRAND,1
qinshijinsheng,BRAND,1
可人儿,BRAND,1
米国财团法人野口医学研究所 新健康活力制品,BRAND,1
此处报错:
segment = AhoCorasickDoubleArrayTrieSegment().loadDictionary(path)
jpype._jclass.NumberFormatException: For input string: “BRAND”
看起来是词典格式错了,但我确实是按照“词汇,词性,词频”的格式做的词典。
请问可能是哪里有问题?
望回复,感谢!