《自然语言处理入门》勘误表

虽然水平有限,但我对改进内容的热情是无限的。此处专门收集勘误,欢迎大家的斧正,谢谢。

页码 原文 修改 提出者
41 孙松茂 孙茂松 戴斌
62 非h和非s字符 非h且非s的字符 @ChangXing
78 :return: [(1, 2), (2, 2), (2, 3)] :return: [(0, 2), (2, 3), (3, 5)] @huiyu
86 result += text[offset] result += text[offset:] @zzuruichao
94 n 越大 k 越大 @hankcs
95 p(\text{EOS} \mid 服务)=\frac{1}{1} p(\text{EOS} \mid 服务) = \frac{1}{2} @booynal
95 每个单词的概率仅取决于前n个单词 每个单词的概率仅取决于前n-1个单词 @booynal
96 深度学习带了一种递归神经网络语言模型 深度学习带了一种递归神经网络语言模型 @ChangXing
106 pair[index / 2 + 1] pair[index * 2 + 1] @jingbiao
111 \hat p(w_t\mid w_{t-1})=\lambda\left[\mu \frac{c(w_{t-1}w_t)}{c(w_t)}+1-\mu \right]+(1-\lambda)\frac{c(w_t)+1}{N} \tag{3.2} \hat p(w_t\mid w_{t-1})=\lambda\left[\mu \frac{c(w_{t-1}w_t)}{c(w_{t-1})+1}+1-\mu \right]+(1-\lambda)\frac{c(w_t)}{N} \tag{3.2} @huiyu
144 暴力解法是枚举每个时刻的 N 种备选状态,相邻两个时刻之间的状态就有 N^2 种组合。 暴力解法是枚举每个时刻的N种备选状态,由于一共有T个时刻,所以复杂度是 O(N^T) 。如果使用下面介绍的动态规划记住截止当前时刻最短的前 N^2 条路径的话,则可以将复杂度降低到 O(TN^2)
132 下标 i 和 j 分别代表观测和状态的……,i=1 x_t=o_j\vert y_t=s_i )下标 i 和 j 分别代表状态和观测的……,j=1 @zzuruichao @lyjcam
152 W+=c。若 y=B or S,则切断,L+=W,W=[] 若y=B or S且W非空,则切断,即L+=W,W=[]。将字符x存入缓冲区,即W+=x。 @zkws
181 平均感知机的不同点 结构化感知机的不同点 @qidiao
181 惩罚错误结果触发的特征函数的权重 \mathbf{w}\leftarrow\mathbf{w}-\phi(\mathbf{x}_i,\mathbf{y}) ,惩罚错误结果触发的特征函数 \mathbf{w}\leftarrow\mathbf{w}-\phi(\mathbf{x}_i,\mathbf{\hat y}) ​ @zjujunge
187 提供训练接口也评测接口 训练接口与评测接口 @bqwu
204 图 6-5 分解为个小型最大团 图 6-5 分解为3个小型最大团 @Jiayuforfreeo
271 {\text{H(X) }} = p(x =正)\log p(x = 正) + p(x = 反)\log p(x = 反) {\text{H(X) }} = -\left(p(x =正)\log p(x = 正) + p(x = 反)\log p(x = 反)\right)
273 所以不必计算期望,或者说期望为 1 所以不必计算期望,或者说期望为 1 linmm
277 [女排, 观众, 欢呼] [女排, 观众, 欢呼] @DongChaoanderuni
295 若该点到最近质心的距离的平方小于 \Delta 若该点到最近质心的距离的平方\Delta @moniker
318 样本点的集合间隔 样本点的几何间隔 @striker
330 \color{red}{elf} \color{blue}{clf} @AliBug
331 利用菜单"File -> Read CoNLL File"即可加载一个.conll扩展名的树库文件; 利用菜单"File -> Read Conll File"即可加载一个.conll扩展名的树库文件; @DongChaoanderuni
10 Likes

页码应该是41页吧?我看我的书中是在41页的。:smiley:

1 Like

的确,感谢指正。

作者大大,在书的181页结构化感知机算法那里,我感觉承接上文的意思,应该是“相较于感知机算法,结构化感知机的不同点无非在于…",而不是平均感知机吧:sweat_smile:

1 Like

的确如此,感谢指正!

作者老大,您好,在152页,4.6.5预测一节中的切分规则里的(2)是否应该改为如下格式更容易和代码逻辑对应:

逐个读入字符x与标签y, 若y = B or S,则切断,L.add(W), W="", W+= x

这样的确好一些。

106页,有两处pair[index /2 +1] 应改为pair[index * 2 +1];

的确如此,感谢指正。

老师,58页的 “检查父节点p的子列表”,是不是应该改为 “检查父节点b的子列表”?

作者好 第86页replace_stropwrods_text函数中倒数第二行 result += text[offset] 如果最后一个停用词后面有多个字符会导致只输出最后一个停用词后面的一个字符,应该写成result += text[offset:]

的确如此,感谢指正!


Hankcs,你好!感谢你的书,带我进入来NLP的世界。
我看到95的时候,有些疑问,但又不确定,还请大神指点。如图的红圈圈所示。

2 Likes

感谢指出,你是对的。

第四章隐马尔可夫模型发射概率矩阵B下面一行
“其中,第i行j列的元素下标i和j分别代表观测和状态的第i种和第j种取值” 这里的观测和状态是不是写反了
因为状态y一共是N种 观测x一共是M种 ,矩阵是N×M

是的,感谢指正。

那下一行的i=1也应该改成j=1了

对的,已经向编辑部反馈了。

作者好,在现有勘误表中对第132页的修改后,其上方的公式B中的 oi 和 sj ,是否应该改成 oj 和 si 呢?

的确如此,谢谢。