Hanlp会优先使用用户自定义词典里的词条进行切分词吗?

Hanlp会优先使用用户自定义词典里的词条进行切分词吗?还是有什么权重分配?

或者怎么设置才能让用户自定义词典里的词条权重最高?

你这个问题在《自然语言处理入门》一书中有详细解释。

  • 低优先级
    分词器首先在不考虑用户词典的情况下由统计模型预测分词结果,最后将该结果按照用户词典合并。默认低优先级。
    segment.enableCustomDictionary(false)可以关闭用户词典。
  • 高优先级
    分词器优先考虑用户词典,但具体实现由分词器子类自行决定。
    segment.enableCustomDictionaryForcing(true)可以启用高优先级。
1 Like

想问一下,我想将一串数字2020单独拆开,并不想要整体的2020;设定用户自定义词典1,2,3,4,5,6,7,8,9,0;结果还是出现整串,这样设定也没用呀

这个解释应该对应2.1版本中自定义词典的强制、合并两种规则

这个segment 从哪引入 ?