短语提取识别在一阶共现中如何使用自定义的词频字典,com.hankcs.hanlp.corpus.occurrence.Occurrence 中似乎没有加载任何字典。是不是通过继承Occurrence并覆盖Set<Map.Entry<String, TermFrequency>> getUniGram() 方法的方式实现?可有什么要注意的地方,或者例子?
在基于互信息和左右信息熵的短语提取识别文章中提到
一阶共现
也就是每个单词的词频。事实上,在我的实验结果中,光凭从文档中统计出来的词频不能反映一个词语在整个语言中的稀有程度,所以我使用外部词频词典。
准备覆盖Occurrence中的getTermFrequency方法试试看效果