关于关键词抽取的疑问

bqwu · March 3, 2020, 2:35am

hankcs老师好，
我在看了第9章后，在尝试做基于CFR分词器的关键词提取，算法是TextRank或者Term Frequency。发现使用CRF分词器时，会把“\n”当作关键词，或者有的关键词里面包含“\n”。但用默认的Viterbi或者SP分词器时就没有这个问题。我的部分代码如下：
TextRankKeyword = SafeJClass(“com.hankcs.hanlp.summary.TextRankKeyword”)
TRKeyWord_CRF = TextRankKeyword(CRFsegment)
keyWords_TR_CRF = TRKeyWord_CRF.getKeywords(content, keyNum_TR)
print(keyWords_TR_CRF)
部分结果是：
[
, 现在, 问题, 没有, 说, 希望…]
我打印了第一个词，发现是“\n”，还有一个词是“\n嗯”。因此，“嗯”没有被当作停用词过滤掉。

不知道是哪里的问题？谢谢

hankcs · March 6, 2020, 1:58am

建议把空格换行等都预处理掉，content.replace一行代码的事。

bqwu · March 6, 2020, 3:17am

谢谢老师，估计是Viterbi或者SP分词器时包括了预处理，CRF可能没有。我处理好了，谢谢

hankcs · March 6, 2020, 2:45pm

维特比感知机分词器都有对空格做特殊处理，但没有去掉。CRFSegment的问题在于没有在大规模语料库上训练。

bqwu · March 9, 2020, 12:22am

这样呀，谢谢hankcs老师！