第10章基于其他统计指标的文本聚类

大家好,想请问一个问题,在本书第293页,10.2.2节中提到了词频以外的3种统计指标。书上的示例是基于词频来做的K均值聚类。如果想实现基于其他统计指标的文本聚类,比如词向量,不知道HanLP中是否有相关模块来实现?我找了一下代码,但不是很清楚。想问一下是用KMeansClustering的类来做吗?如果这样,是不是必须先生成好文档向量存到文件里再读入?不知道有没有更优的解法。谢谢~

override 这个方法就可以了:

1 Like

ok,谢谢hankcs老师

请问用KMeansClustering来做,除了麻烦一点,应该没问题吧?就是先生成文档向量,保存到文件,在用KMeansClustering读入来处理?
谢谢~

word2vec里的KMeansClustering效率比ClusterAnalyzer低。

好的,谢谢hankcs老师。另外想请问一下,如果想指定随机数种子该在哪里去设置或改动呢?因为每次聚类的结果可能会有不同,我想能重复结果。谢谢~

你搜索一下random字样吧。

谢谢,找到了

hankcs老师好,我自己尝试了一下,修改了Cluster中的代码指定了随机数种子,然后在ClusterAnalyzer的这行代码,在初始化实例的时候传入了一个整数指定了随机数种子。现在的结果是簇的标签每次都可以复现了,比如这一类的编号会一直为0,但每个簇内的具体元素还是有一定的不确定性,不知道还要改哪里。是151行中的cluster.section中还要再改什么吗?研究了一下,没有搞清楚,求指教,谢谢~

应该只有如下一个随机数发生器:

每个簇内元素是无序的,但控制了随机数之后应该结果是确定的。建议单步一下。

好的,谢谢hankcs老师