冯志伟:宗成庆《统计自然语言处理》一书序言一
取自 自然语言处理百科
我在1996 年出版的《自然语言的计算机处理》中,曾经说过:“自然语言处理(Natural Language Processing, NLP)就是利用计算机为工具对人类特有的书面形式和口头形式的语言进行各种类型处理和加工的技术。”这个定义是正确的,它的缺点是比较笼统。我一直不太满意这个定义。
后来,我在1999 年出版的《计算机进展》(Advanced in Computers)第47 卷上,看到了美国计算机科学家马纳瑞斯(Bill Manaris)在《从人-机交互的角度看自然语言处理》一文给自然语言处理提出的如下定义:“自然语言处理可以定义为研究在人与人交际中以及在人与计算机交际中的语言问题的一门学科。自然语言处理要研制表示语言能力(linguistic competence)和语言应用(linguistic performance)的模型,建立计算框架来实现这样的语言模型,提出相应的方法来不断地完善这样的语言模型,根据这样的语言模型设计各种实用系统,并探讨这些实用系统的评测技术。” 这个定义的英文如下:“NLP could be defined as the discipline that studies the linguistic aspects of human-human and human-machine communication,develops models of linguistic competence and performance, employs computational frameworks to implement process incorporating such models, identifies methodologies for iterative refinementof such processes/models, and investigates techniques for evaluating the result systems.”
马纳瑞斯的这个定义更加完善,把自然语言处理的研究过程也清楚地反映出来了。我觉得,这是目前在汗牛充栋的各种文献中可以找到的关于自然语言处理的一个比较好的定义。我原则上认同这个定义。
根据这个定义,自然语言处理要研究“在人与人交际中以及在人与计算机交际中的语言问题”,既要研究语言,又要研究计算机,因此,它是一门交叉学科,它涉及到语言学、计算机科学、数学、自动化技术等不同的学科。
近年来,由于自然语言处理的发展,不同学科的专家络绎不绝地参加到自然语言处理的队伍中来。这些来自不同学科领域的专家,对于他们自己原来的本行,当然都是精研通达的内行,但是,他们当中的很多人,对于自然语言处理这个交叉学科本身,并没有接受过专门的学习和训练,有必要进行更新知识的再学习,除了学习不同于他们自己本学科的相关学科的知识之外,还有必要学习自然语言处理这个交叉学科本身的知识。
自然语言处理已经有五十多年发展的历史了,在这五十多年的发展过程中,自然语言处理形成了自己特有的理论和方法,成为了一门独立的学科,有自己特定的科学内容。关于自然语言处理本身的这些知识,绝不是不学而能的,而是需要经过艰苦的学习之后才可以逐步地掌握的。学习自然语言处理这个学科的专门知识,正如学习语言学、计算机科学、数学和自动化技术一样,非下苦功学习不可。
转自:宗成庆《统计自然语言处理》序言

