AhoCorasickDoubleArrayTrieSegment加载自定义词典

模仿书中此demo写了一段代码:https://github.com/hankcs/pyhanlp/blob/master/tests/demos/demo_use_AhoCorasickDoubleArrayTrieSegment.py

使用如下代码加载了自定义词典
AhoCorasickDoubleArrayTrieSegment = JClass(“com.hankcs.hanlp.seg.Other.AhoCorasickDoubleArrayTrieSegment”)
Config = JClass(“com.hankcs.hanlp.HanLP$Config”)
path = Config.CustomDictionaryPath[tag2idx[tag]]
segment = AhoCorasickDoubleArrayTrieSegment().loadDictionary(path)
segment.enablePartOfSpeechTagging(True)

自定义词典为csv格式文件:
富耐恩,BRAND,1
qinshijinsheng,BRAND,1
可人儿,BRAND,1
米国财团法人野口医学研究所 新健康活力制品,BRAND,1

此处报错:
segment = AhoCorasickDoubleArrayTrieSegment().loadDictionary(path)
jpype._jclass.NumberFormatException: For input string: “BRAND”

看起来是词典格式错了,但我确实是按照“词汇,词性,词频”的格式做的词典。
请问可能是哪里有问题?
望回复,感谢!

要保存为.csv文件,例:
dic.csv.zip

无法复现。

public class DemoAhoCorasickDoubleArrayTrieSegment
{
    public static void main(String[] args) throws IOException
    {
        AhoCorasickDoubleArrayTrieSegment segment = new AhoCorasickDoubleArrayTrieSegment("data/test/dic.csv");
        segment.enablePartOfSpeechTagging(true);
        System.out.println(segment.seg("富耐恩米国财团法人野口医学研究所 新健康活力制品"));
    }
}

使用词典
dic.csv.zip

正常输出:

[富耐恩/BRAND, 米国财团法人野口医学研究所 新健康活力制品/BRAND]

请你仔细排查自己的情况。

找到问题了,词典中的个别词条包含逗号,将它们剔除即可。感谢回复!