AhoCorasickDoubleArrayTrieSegment加载自定义词典

52ie · May 1, 2020, 3:28pm

模仿书中此demo写了一段代码：https://github.com/hankcs/pyhanlp/blob/master/tests/demos/demo_use_AhoCorasickDoubleArrayTrieSegment.py

使用如下代码加载了自定义词典
AhoCorasickDoubleArrayTrieSegment = JClass(“com.hankcs.hanlp.seg.Other.AhoCorasickDoubleArrayTrieSegment”)
Config = JClass(“com.hankcs.hanlp.HanLP$Config”)
path = Config.CustomDictionaryPath[tag2idx[tag]]
segment = AhoCorasickDoubleArrayTrieSegment().loadDictionary(path)
segment.enablePartOfSpeechTagging(True)

自定义词典为csv格式文件：
富耐恩,BRAND,1
qinshijinsheng,BRAND,1
可人儿,BRAND,1
米国财团法人野口医学研究所新健康活力制品,BRAND,1

此处报错：
segment = AhoCorasickDoubleArrayTrieSegment().loadDictionary(path)
jpype._jclass.NumberFormatException: For input string: “BRAND”

看起来是词典格式错了，但我确实是按照“词汇,词性,词频”的格式做的词典。
请问可能是哪里有问题？
望回复，感谢！

hankcs · May 1, 2020, 3:49pm

要保存为.csv文件，例：
dic.csv.zip

hankcs · May 1, 2020, 3:52pm

无法复现。

public class DemoAhoCorasickDoubleArrayTrieSegment
{
    public static void main(String[] args) throws IOException
    {
        AhoCorasickDoubleArrayTrieSegment segment = new AhoCorasickDoubleArrayTrieSegment("data/test/dic.csv");
        segment.enablePartOfSpeechTagging(true);
        System.out.println(segment.seg("富耐恩米国财团法人野口医学研究所 新健康活力制品"));
    }
}

使用词典
dic.csv.zip

正常输出：

[富耐恩/BRAND, 米国财团法人野口医学研究所新健康活力制品/BRAND]

请你仔细排查自己的情况。

52ie · May 3, 2020, 3:09am

找到问题了，词典中的个别词条包含逗号，将它们剔除即可。感谢回复！