冯志伟:宗成庆《统计自然语言处理》一书序言七
取自 自然语言处理百科
从20世纪90年代开始,自然语言处理进入了一个新的阶段。1993 年7 月在日本神户召开的第四届机器翻译高层会议(MT Summit IV)上,英国著名学者哈钦斯(J. Hutchins)在他的特约报告中指出,自1989 年以来,机器翻译的发展进入了一个新纪元。这个新纪元的重要标志是,在基于规则的技术中引入了语料库方法,其中包括统计方法,基于实例的方法,通过语料加工手段使语料库转化为语言知识库的方法,等等。这种建立在大规模真实文本处理基础上的机器翻译,是机器翻译研究史上的一场革命,它将会把自然语言处理推向一个崭新的阶段。
在过去的四十多年中,从事自然语言处理系统开发的绝大多数学者,基本上都采用基于规则的理性主义方法,这种方法主张,智能的基本单位是符号,认知过程就是在符号的表征下进行符号运算,因此,思维就是符号运算。
著名语言学家弗托(J. A. Fodor)在《Representations》一书(MIT Press, 1980)中说:“只要我们认为心理过程是计算过程(因此是由表征式定义的形式操作),那么,除了将心灵看作别的之外,还自然会把它看作一种计算机。也就是说,我们会认为,假设的计算过程包含哪些符号操作,心灵也就进行哪些符号操作。因此,我们可以大致上认为,心理操作跟图灵机的操作十分类似。”弗托的这种说法代表了自然语言处理中的基于规则(符号 操作)的理性主义观点。
这样的观点受到了学者们的批评。舍尔(J. R. Searle)在他的论文《Minds, Brains and Programmes》中,提出了所谓“中文屋子”的质疑。他提出,假设有一个懂得英文但是不懂中文的人被关在一个屋子中,在他面前是一组用英文写的指令,说明英文符号和中文符号之间的对应和操作关系。这个人要回答用中文书写的几个问题,为此,他首先要根据指令规则来操作问题中出现的中文符号,理解问题的含义,然后再使用指令规则把他的答案用中文一个一个地写出来。比如,对于中文书写的问题Q1 用中文写出答案A1,对于中文书写的问题Q2 用中文写出答案A2,如此等等。这显然是非常困难的几乎是不能实现的事情,而且,这个人即使能够这样做,也不能证明他懂得中文,只能说明他善于根据规则做机械的操作而已。舍尔的批评使基于规则的理性主义的方法受到了普遍的怀疑。
理性主义方法的另一个弱点是在实践方面的。自然语言处理的理性主义者把自己的目的局限于某个十分狭窄的专业领域之中,他们采用的主流技术是基于规则的句法分析技术和语义分析技术,尽管这些应用系统在某些受限的“子语言”(sub-language)中也曾经获得一定程度的成功,但是,要想进一步扩大这些系统的覆盖面,用它们来处理大规模的真实文本,仍然有很大的困难。因为从自然语言系统所需要装备的语言知识来看,其数量之浩大和颗粒度之精细,都是以往的任何系统所望尘莫及的。而且,随着系统拥有的知识在数量上和程度上发生的巨大变化,系统在如何获取、表示和管理知识等基本问题上,不得不另辟蹊径。这样,就提出了大规模真实文本的自然语言处理问题。1990 年8 月在芬兰赫尔辛基举行的第13届国际计算语言学会议(即COLING'90)为会前讲座确定的主题是:“处理大规模真实文本的理论、方法和工具”,这说明,实现大规模真实文本的处理将是自然语言处理在今后一个相当长的时期内的战略目标。为了实现战略目标的转移,需要在理论、方法和工具等方面实行重大的革新。1992 年6 月在加拿大蒙特利尔举行的第四届机器翻译的理论与方法国际会议(即TMI-92)上,宣布会议的主题是“机器翻译中的经验主义和理性主义的方法”。这里的所谓“理性主义”,就是指以生成转换语法为基础的基于规则的方法,所谓“经验主义”,就是指以大规模语料库的分析为基础的基于统计的方法。从中可以看出当前自然语言处理所关注的焦点。当前语料库的建设和语料库语言学的崛起,正是自然语言处理战略目标转移的一个重要标志。随着人们对大规模真实文本处理的日益关注,越来越多的学者认识到,基于语料库的分析方法(即经验主义的方法)至少是对基于规则的分析方法(即理性主义的方法)的一个重要补充。因为从“大规模”和“真实”这两个因素来考察,语料库才是最理想的语言知识资源。
在这样的情况下,人们开始深入地思考,乔姆斯基提出的形式语法规则是否是真正的语言规则?是否能够经受大量的语言事实的检验?这些形式语言规则是否应该和大规模真实文本语料库中的语言事实结合起来考虑,而不是一头钻入理性主义的牛角尖?
乔姆斯基作为一位求实求真、虚怀若谷的语言学大师,最近他也开始对于理性主义进行了反思,表现了与时俱进的勇气。在最近他提出的“最简方案”中,他认为,所有重要的语法原则直接运用于表层,不同语言之间的差异通过词汇来处理,把具体的规则减少到最低限度,开始注重对具体的词汇的研究。可以看出,乔姆斯基的转换生成语法也开始对词汇重视起来,逐渐地改变了原来的理性主义的立场,开始与经验主义妥协,或者悄悄地向经验主义 复归。
在20 世纪90 年代的最后五年(1994-1999),自然语言处理的研究发生了很大的变化,出现了空前繁荣的局面。概率和数据驱动的方法几乎成为了自然语言处理的标准方法。句法剖析、词类标注、参照消解和话语处理的算法全都开始引入概率,并且采用从语音识别和信息检索中借过来的评测方法,统计方法已经渗透到了机器翻译、文本分类、信息检索、问答系统、信息抽取、语言知识挖掘等自然语言处理的应用系统中去,基于统计的经验主义方法逐渐成为自然语言处理研究的主流。
可以看出,在自然语言处理发展的过程中,始终充满了基于规则的理性主义方法和基于统计的经验主义方法之间的矛盾,这种矛盾时起时伏,此起彼伏。自然语言处理也就在这样的矛盾中逐渐成熟起来。
转自:宗成庆《统计自然语言处理》序言

