《自然语言处理入门》勘误表

hankcs · October 25, 2019, 1:06am

虽然水平有限，但我对改进内容的热情是无限的。此处专门收集勘误，欢迎大家的斧正，谢谢。

页码	原文	修改	提出者
41	孙松茂	孙茂松	戴斌
62	非h和非s字符	非h且非s的字符	@ChangXing
78	`:return: [(1, 2), (2, 2), (2, 3)]`	`:return: [(0, 2), (2, 3), (3, 5)]`	@huiyu
86	`result += text[offset]`	`result += text[offset:]`	@zzuruichao
94	n 越大	k 越大	@hankcs
95	p(\text{EOS} \mid 服务)=\frac{1}{1}	p(\text{EOS} \mid 服务) = \frac{1}{2}	@booynal
95	每个单词的概率仅取决于前n个单词	每个单词的概率仅取决于前n-1个单词	@booynal
96	深度学习带了一种递归神经网络语言模型	深度学习带来了一种递归神经网络语言模型	@ChangXing
106	`pair[index / 2 + 1]`	`pair[index * 2 + 1]`	@jingbiao
111	\hat p(w_t\mid w_{t-1})=\lambda\left[\mu \frac{c(w_{t-1}w_t)}{c(w_t)}+1-\mu \right]+(1-\lambda)\frac{c(w_t)+1}{N} \tag{3.2}	\hat p(w_t\mid w_{t-1})=\lambda\left[\mu \frac{c(w_{t-1}w_t)}{c(w_{t-1})+1}+1-\mu \right]+(1-\lambda)\frac{c(w_t)}{N} \tag{3.2}	@huiyu
144	暴力解法是枚举每个时刻的 N 种备选状态，相邻两个时刻之间的状态就有 N^2 种组合。	暴力解法是枚举每个时刻的N种备选状态，由于一共有T个时刻，所以复杂度是 O(N^T) 。如果使用下面介绍的动态规划记住截止当前时刻最短的前 N^2 条路径的话，则可以将复杂度降低到 O(TN^2) 。
132	下标 i 和 j 分别代表观测和状态的……，i=1	（ x_t=o_j\vert y_t=s_i ）下标 i 和 j 分别代表状态和观测的……，j=1	@zzuruichao @lyjcam
152	W+=c。若 y=B or S，则切断，L+=W,W=`[]`。	若y=B or S且W非空，则切断，即L+=W，W=`[]`。将字符x存入缓冲区，即W+=x。	@zkws
181	平均感知机的不同点	结构化感知机的不同点	@qidiao
181	惩罚错误结果触发的特征函数的权重 \mathbf{w}\leftarrow\mathbf{w}-\phi(\mathbf{x}_i,\mathbf{y})	，惩罚错误结果触发的特征函数 \mathbf{w}\leftarrow\mathbf{w}-\phi(\mathbf{x}_i,\mathbf{\hat y})	@zjujunge
187	提供训练接口也评测接口	训练接口与评测接口	@bqwu
204	图 6-5 分解为个小型最大团	图 6-5 分解为3个小型最大团	@Jiayuforfreeo
271	{\text{H(X) }} = p(x =正)\log p(x = 正) + p(x = 反)\log p(x = 反)	{\text{H(X) }} = -\left(p(x =正)\log p(x = 正) + p(x = 反)\log p(x = 反)\right)
273	所以不必计算期望，或者说期望为 1	所以不必计算期望，~~或者说期望为 1~~	linmm
277	[女排, 观众, 欢呼]	~~[女排, 观众, 欢呼]~~	@DongChaoanderuni
295	若该点到最近质心的距离的平方小于 \Delta	若该点到最近质心的距离的平方大于 \Delta	@moniker
318	样本点的集合间隔	样本点的几何间隔	@striker
330	\color{red}{elf}	\color{blue}{clf}	@AliBug
331	利用菜单"File -> Read CoNLL File"即可加载一个.conll扩展名的树库文件；	利用菜单"File -> Read Conll File"即可加载一个.conll扩展名的树库文件；	@DongChaoanderuni

ZhuaN · November 23, 2019, 6:59am

页码应该是41页吧？我看我的书中是在41页的。

hankcs · November 23, 2019, 3:45pm

的确，感谢指正。

qidiao · November 25, 2019, 2:12pm

作者大大，在书的181页结构化感知机算法那里，我感觉承接上文的意思，应该是“相较于感知机算法，结构化感知机的不同点无非在于…"，而不是平均感知机吧

hankcs · November 25, 2019, 8:00pm

的确如此，感谢指正！

zkws · December 3, 2019, 7:44am

作者老大，您好，在152页，4.6.5预测一节中的切分规则里的(2)是否应该改为如下格式更容易和代码逻辑对应：

逐个读入字符x与标签y, 若y = B or S，则切断，L.add(W), W="", W+= x

hankcs · December 3, 2019, 5:38pm

这样的确好一些。

jingbiao · December 25, 2019, 2:15am

106页，有两处pair[index /2 +1] 应改为pair[index * 2 +1]；

hankcs · December 25, 2019, 4:51am

的确如此，感谢指正。

zjujunge · December 27, 2019, 12:30am

老师，58页的 “检查父节点p的子列表”，是不是应该改为 “检查父节点b的子列表”？

zzuruichao · January 2, 2020, 11:38am

作者好第86页replace_stropwrods_text函数中倒数第二行 result += text[offset] 如果最后一个停用词后面有多个字符会导致只输出最后一个停用词后面的一个字符，应该写成result += text[offset:]

hankcs · January 2, 2020, 7:18pm

的确如此，感谢指正！

booynal · January 8, 2020, 2:03am

Hankcs，你好！感谢你的书，带我进入来NLP的世界。
我看到95的时候，有些疑问，但又不确定，还请大神指点。如图的红圈圈所示。

hankcs · January 8, 2020, 2:35am

感谢指出，你是对的。

zzuruichao · January 8, 2020, 2:48am

第四章隐马尔可夫模型发射概率矩阵B下面一行
“其中，第i行j列的元素下标i和j分别代表观测和状态的第i种和第j种取值” 这里的观测和状态是不是写反了
因为状态y一共是N种观测x一共是M种，矩阵是N×M

hankcs · January 8, 2020, 2:54am

是的，感谢指正。

zzuruichao · January 8, 2020, 2:56am

那下一行的i=1也应该改成j=1了

hankcs · January 8, 2020, 3:01am

对的，已经向编辑部反馈了。

lyjcam · February 20, 2020, 9:54am

作者好，在现有勘误表中对第132页的修改后，其上方的公式B中的 oi 和 sj ，是否应该改成 oj 和 si 呢？

hankcs · February 20, 2020, 4:07pm

的确如此，谢谢。