hankcs老师好,
我在看了第9章后,在尝试做基于CFR分词器的关键词提取,算法是TextRank或者Term Frequency。发现使用CRF分词器时,会把“\n”当作关键词,或者有的关键词里面包含“\n”。但用默认的Viterbi或者SP分词器时就没有这个问题。我的部分代码如下:
TextRankKeyword = SafeJClass(“com.hankcs.hanlp.summary.TextRankKeyword”)
TRKeyWord_CRF = TextRankKeyword(CRFsegment)
keyWords_TR_CRF = TRKeyWord_CRF.getKeywords(content, keyNum_TR)
print(keyWords_TR_CRF)
部分结果是:
[
, 现在, 问题, 没有, 说, 希望…]
我打印了第一个词,发现是“\n”,还有一个词是“\n嗯”。因此,“嗯”没有被当作停用词过滤掉。
不知道是哪里的问题?谢谢