关于关键词抽取的疑问

hankcs老师好,
我在看了第9章后,在尝试做基于CFR分词器的关键词提取,算法是TextRank或者Term Frequency。发现使用CRF分词器时,会把“\n”当作关键词,或者有的关键词里面包含“\n”。但用默认的Viterbi或者SP分词器时就没有这个问题。我的部分代码如下:
TextRankKeyword = SafeJClass(“com.hankcs.hanlp.summary.TextRankKeyword”)
TRKeyWord_CRF = TextRankKeyword(CRFsegment)
keyWords_TR_CRF = TRKeyWord_CRF.getKeywords(content, keyNum_TR)
print(keyWords_TR_CRF)
部分结果是:
[
, 现在, 问题, 没有, 说, 希望…]
我打印了第一个词,发现是“\n”,还有一个词是“\n嗯”。因此,“嗯”没有被当作停用词过滤掉。

不知道是哪里的问题?谢谢

建议把空格换行等都预处理掉,content.replace一行代码的事。

谢谢老师,估计是Viterbi或者SP分词器时包括了预处理,CRF可能没有。我处理好了,谢谢

维特比感知机分词器都有对空格做特殊处理,但没有去掉。CRFSegment的问题在于没有在大规模语料库上训练。

这样呀,谢谢hankcs老师!