自然语言处理学习笔记一

取自 自然语言处理百科

跳转到: 导航, 搜索

现在市面上比较流行的国外自然语言处理教材有三种:

《统计自然语言处理基础》,Chirstopher D.Manning(Stanford) 等著,苑春法等译,电子工业出版社,原书写于1999年

《自然语言处理》,James Allen(Rochester)著,刘群等译,电子工业出版社,原书写于1995年(第二版)

《自然语言处理综论》,Daniel(Stanford)等著,冯志伟等译,电子工业出版社,原书写于2000年,据作者主页上说马上要出第二版了。

关于这三本书,一个共同点就是出版时间比较早,另一个共同点是虽然是较久远的书,现在很多自然语言处理,计算语言学相关的课程还是将其用为教材。国内的课程就先不提了,Michael Collins,一个在各会议上发文章无数的MIT副教授讲的Advanced Natural Language Processing课还是用上列的第一和第三本书,第一本书更是传说中google研究员推荐的入门书。总结:姜还是老的辣……

但是,如果你仅仅看这三本书而不看任何论文,你肯定无法与一个正在搞NLP的人正常交流。(NLP:Natural Language Processing),当你看了这三本书,也看了论文,但缺乏机器学习,概率,语言学方面的知识,你恐怕能看懂的论文就有限。所以学习自然语言处理,或许不像想象中的那样有一个固定的框架,尽管据说自然语言处理的研究已经进入了平台期。它与太多东西有着联系,又或许可以说没有联系,像那句著名的”All grammar leak”一样,我们也可以说”All NLP leak”。

几乎所有的自然语言处理教程和课程都谈及了经验主义和理性主义之争。理性主义发展成为基于规则的自然语言处理,经验主义发展为基于统计的自然语言处理。虽然现在是基于统计的自然语言处理占主流,但是也有人坚持自己的信念做基于规则的NLP。

我有一个习惯是接受一样东西要先从最坏的角度考虑它,也就是找它的缺点。鉴于目前我做的是基于统计的自然语言处理,我就先写一点它的缺点。基于统计的自然语言处理的缺点也就是统计方法缺点的折射,第一,自然语言的现象太过丰富,范围太过广泛,连一个精通某种语言的所有说法的人都很难找到,(你懂古文白话文以及90后的火星文么……)更不用说训练出一台精通某种语言的机器了。所以统计样本很难找,而且规模太大,对计算提出了挑战。第二,要做统计就要计算概率,而概率是一个人为的概念,有很多事情不是一定按概率发生的,比如4个3的组合成为了中奖的彩票号码。另外,为了计算概率,常常要假设语言中字与字间的概率不互相影响。但是实际上,它们是互相影响的。概率的估算目前还很粗糙,有时候借用一点机器学习的方法,但是还是经常逃不开统计方法的宿命。好的对自然语言的概率估计是困难的。然而概率确实是一种很优秀的方法,尽管它有很多的缺点,它和信息论一样,都是对语言问题的简化,虽然简化会带来很多问题,但是不简化就根本没办法在根本问题上有一点点进展。

转自:http://www.magicsnowblink.com/nlpnote

个人工具
工具箱