冯志伟:宗成庆《统计自然语言处理》一书序言二
取自 自然语言处理百科
正是基于这样的理解,中国科学院研究生院专门开设了《自然语言理解》的课程,讲授自然语言处理这个学科特有的专门知识。中国科学院自动化研究所国家模式识别重点实验室研究员宗成庆博士从事自然语言处理研究多年,他从2004 年春天开始,每年的春季学期在中国科学院研究生院讲授这门课程,这门课程受到了学生们的欢迎,2005 年被评为中国科学院研究生院的优秀课程。在这门课程的基础之上,宗成庆博士写成了这本《统计自然语言处理》的专著。 我国过去曾经出版过一些关于自然语言处理和计算语言学的教材,这些教材中,除了翻译的外版教材之外,大多数只是讲授基于规则的自然语言处理,没有专门讲授基于统计的自然语言处理。《统计自然语言处理》一书,弥补了我国自然语言处理教材的这个缺陷,起了填补空白的作用。这本书纳入《中文信息处理丛书》并由清华大学出版社出版,这是我国自然语言处理教材建设的一件值得庆幸的好事。
《统计自然语言处理》一书的整体规划和部分章节是宗成庆博士于2004 年底在法国格勒诺布尔信息与应用数学研究院(Institut d'Informatique et Mathématique appliquée de Grenoble, IMAG)的自动翻译研究组(Groupe d'Etude de la Transduction Automatique, GETA)完成的。我在1978 年至1981 年期间,也曾经在IMAG 的GETA 师从著名数学家沃古瓦(B.Vauquois)在这里做过机器翻译的研究,建立了汉-法/英/日/俄/德多语言机器翻译系统,使 我对于自然语言处理这个神奇的研究领域产生了越来越浓厚的兴趣,从此我就义无返顾地投身于自然语言处理的事业。岁月不饶人,将近三十年的光阴匆匆地流逝而去,当年我还是风华正茂的青年人,而今,我已经变成白发苍苍的垂垂老人了,我为这个事业坎坷地奋斗了大半生时间,其间的甘苦有谁知道呢?三十年来,不论是处于顺境还是逆境之中,我对于IMAG和GETA 始终怀着难分难解的深厚感情,这种感情当然主要是对于我们共同的自然语言处理事业的感情。宗成庆博士2004 年底恰巧在IMAG 和GETA 写作《统计自然语言处理》一书,说明他和我之间确实有缘分,这样的缘分促使我们这两个年龄相差甚大的人,在自然语言处理这个领域里风雨同舟,休戚与共,一起克服攀登科学高峰的困难,共同分享探索语言奥秘的愉快,成为了忘年之交的好朋友。
我带着极大的热情和浓厚的兴趣一口气读完此书。觉得此书覆盖全面,论述清楚,实例丰富,逻辑严密,既有深入的理论分析,又有实际的应用研究。它既是初学者学习统计自然语言处理的入门初阶,又是这个领域的专门家深入钻研统计自然语言处理的导航指南。不禁为之拍手叫绝!
本书在内容的安排方面别具匠心。1 至9 章主要介绍统计自然语言处理的理论,10 至15 章主要介绍统计自然语言处理的应用。
在统计自然语言处理的理论方面。首先介绍有关的基础知识,例如,概率论和信息论的基本概念、形式语言和自动机的基本概念。这些基础知识,对于以语言学为背景的读者是非常有用的,对于理科背景的读者,可以略过这一部分。由于统计自然语言处理是以语料库和词汇知识库为语言资源的,因此,在介绍了有关的基础知识之后,本书讲解了语料库和词汇知识库的基本原理,使读者对语言资源的建造技术获得清楚的认识。语言模型和隐马尔柯夫 模型是统计自然语言处理的基础理论,在统计自然语言处理中具有重要的地位。因此,本书介绍了语言模型的基本概念,并讨论了各种平滑方法和自适应方法,又介绍了隐马尔柯夫模型和参数估计的方法。接着,本书分别论述了在词法分析与词性标注中的统计方法,在句法分析中的统计方法,在词汇语义中的统计方法。
在统计自然语言处理的应用方面,本书对统计自然语言处理的各个应用部门进行系统的、详细的介绍,分别介绍了统计机器翻译、语音翻译、文本分类、信息检索与问答系统、信息抽取、口语信息处理与人机对话系统等各种应用系统中的统计自然语言处理方法。
从篇幅来看,本书的理论部分与应用部分几乎各占一半,可以说是理论与应用并重。
转自:宗成庆《统计自然语言处理》序言

