分词索引格式 上海 消失了,求指点

用了以下代码 ,crf 可以把上海 丰族 识别出来,但是 有限公司 不能拆分

    Segment seg = HanLP.newSegment("crf");
    seg.enableIndexMode(1);
    System.out.println(seg.seg("上海丰族化工有限公司"));

    seg = HanLP.newSegment("viterbi");
    seg.enableIndexMode(2);
    System.out.println(seg.seg("上海丰族化工有限公司"));

crf
[上海丰族化工有限公司/nt, 上海/ns, 丰族/nz, 化工/n, 有限公司/n]

viterbi
[上/f, 海丰/ns, 族/ng, 化工/n, 有限公司/nis, 有限/a, 公司/nis]

seg.enableIndexMode(n); n指的是 “三字词及以上的词语将会被切分为大于等于此长度的子词语。默认取2” 。

n取2时并不是说分出的词都大于等于2。如果有单字成词的还是会出现单字词。

1 Like

取1 都没用. 后来我设置了所有名称识别打开,成功了.