新书P273中讲述互信息提取新词的疑惑

书中说选取所有组合方式中互信息最小的那一种为代表,不应该是最大么?

这段解释对应下列代码:

意思跟支持向量机的几何间隔一样,我们希望所有数据点到超平面的几何间隔尽量大,也就是希望几何间隔的最小值尽量大。你可以把互信息想象成几何间隔,连所有组合中最小的互信息都大,说明其他组合方式的互信息肯定更大。用min的时候效果如下:

[什么, 凤姐, 贾母, 黛玉, 姑娘, 宝钗, 怎么, 丫头, 如今, 老太太, 贾政, 奶奶, 自己, 贾琏, 平儿, 老爷, 东西, 告诉, 咱们, 姨妈, 薛姨妈, 所以, 探春, 紫鹃, 鸳鸯, 湘云, 如此, 妹妹, 婆子, 贾珍, 李纨, 答应, 尤氏, 晴雯, 媳妇, 屋里, 打发, 刘姥姥, 小丫头, 林黛玉, 薛蟠, 香菱, 孩子, 姊妹, 到底, 连忙, 明白, 丫鬟, 麝月, 姨娘, 哥哥, 贾蓉, 小厮, 果然, 意思, 周瑞, 怎么样, 主意, 已经, 越发, 跟前, 瞧瞧, 房中, 喜欢, 贾赦, 惜春, 句话, 雨村, 贾芸, 吩咐, 况且, 悄悄, 嫂子, 兄弟, 素日, 芳官, 金桂, 贾环, 言语, 雪雁, 时候, 多少, 许多, 嬷嬷, 迎春, 林之孝, 糊涂, 十分, 女孩, 伏侍, 奴才, 预备, 衣服, 请安, 林姑娘, 收拾, 赵姨娘, 莺儿, 年纪, 父亲]

max时输出如下:

[宝玉, 了., 太太, 什么, 凤姐, 了一, 贾母, 一个, 夫人, 也不, 来., 黛玉, 我们, 那里, 袭人, 姑娘, 宝钗, 去了, 不知, 王夫人, 起来, 听了, 来了, 出来, 怎么, 你们, 丫头, 如今, 知道, 老太太, 贾政, .贾, 奶奶, 这里, 他们, 说着, 不是, 的., 众人, .我, 自己, 一面, .宝, 不得, 只见, 两个, 贾琏, 没有, 去., 家的, 听见, 进来, 这个, 平儿, 这样, 老爷, 的人, .你, .宝玉, .这, 东西, 告诉, 就是, 咱们, 姐儿, 姐姐, 回来, 见了, 不好, 出去, 只是, 大家, 姨妈, 只得, 说了, 不过, 不敢, 二爷, .那, 这些, 过来, 个人, 去了., .只, 凤姐儿, 薛姨妈, 所以, 了这, 的事, 有一, 也是, 的话, 呢., 探春, 我的, 一时, 不能, 紫鹃, 来的, 这么]

显然是min的效果好。

1 Like