《自然语言处理入门》读者交流区欢迎您

《自然语言处理入门》是一本务实的NLP入门书,助你零起点上手自然语言处理。


本书基础理论与生产代码并重,Python与Java双实现。从基本概念出发,逐步介绍中文分词、词性标注、命名实体识别、信息抽取、文本聚类、文本分类、句法分析这几个热门问题的算法原理与工程实现。书中通过对多种算法的讲解,比较了它们的优缺点和适用场景,同时详细演示生产级成熟代码,助你真正将自然语言处理应用在生产环境中。

随着对本书的学习,你将从普通程序员晋级为机器学习工程师,最后进化到自然语言处理工程师。

p204,图6-5下面一段的文字第二行,“图6-5分解为个小型最大团”,少写了个数字3

的确,感谢指正!

p55页,双数组字典树的公式是不是有误?check[p] = b ?

是一个实现上的变种,与代码一致。

1 Like

非常赞的书,务实且深入简出,也感谢作者对自然语言处理的巨大贡献。

谢谢,过奖了,为普及NLP尽了一点绵薄之力而已。

正在拜读,特别好的一本书:grinning:

1 Like

非常好,正在学习~

1 Like

好书,特别适合指导中文自然语言处理上手。

1 Like

感谢建议,这里的本意就是不可能出现unigram中不存在的词语,也就是OOV。加了而的话,OOV听上去像是个动词,是有语病的。

疑问1: P347:倒数第二段,“人们尚不知道人类思考与推理问题的过程、信达雅地遣词造句的机理,所以无法手工选择合理的特征”,其中“信达雅”应该是写错了把?

疑问2:P352:一张1280*800的24位彩色图片是一个262144000维的向量?
这是怎么计算的?

没有,借用自翻译惯用语。

24位RGB像素点每个通道有256个取值,3通道平均(灰值化)后一个像素点256个取值,以独热向量编码需要256维。256*1280*800= 262144000。当然这种编码不经济,每个像素以float32编码就只需1280*800维了。