冯志伟:宗成庆《统计自然语言处理》一书序言五

取自 自然语言处理百科

跳转到: 导航, 搜索

  在自然语言处理中,除了基于统计的经验主义方法之外,还同时存在着基于规则的理性主义方法。自然语言处理中的理性主义来源于哲学中的理性主义。

  在欧洲,这种理性主义源远流长,到了16 世纪末至18 世纪中期更加成熟,出现了笛卡尔(Rene Descartes, 1596-1650)、斯宾诺莎(Benetict de Spinoza, 1632-1677)、莱布尼兹(Cottfried Wilhelm Leibniz, 1646-1716)等杰出的理性主义哲学家。笛卡尔改造了传统的演绎法,制定了理性的演绎法,他认为,任何真理性的认识,都必须首先在人的认识中找到一个最确定、最可靠的支点,才能保证由此推出的知识也是确定可靠的。他提出在认识中应当避免偏见,要把每一个命题都尽可能地分解成细小的部分,直待能够圆满解决为止,要按照次序引导我们的思想,从最简单的对象开始,逐步上升到对复杂事物的认识。斯宾诺莎把几何学方法应用于论理学研究,使用几何学的公理、定义、命题、证明等步骤来进行演绎推理,在他的《论理学》的副标题中明确标示“依几何学方式证明”。莱布尼兹把逻辑学高度地抽象化、形式化、精确化,使逻辑学成为一种用符号进行演算的工具。笛卡尔是法国哲学家,斯宾诺莎是荷兰哲学家,莱布尼兹是德国哲学家,他们崇尚理性,提倡理性的演绎法。他们 都居住在欧洲大陆,因此,理性主义也被称为“大陆理性主义”。

  在哲学领域中,始终都存在着经验主义和理性主义的矛盾和斗争。这种矛盾和斗争,当 然也会反映到自然语言处理中来。

  早期的自然语言处理研究带有鲜明的经验主义色彩。1913 年,俄国科学家马尔柯夫(A. Markov,1856-1922)使用手工查频的方法,统计了普希金长诗《欧根奥涅金》中的元音和辅音的出现频度,提出了马尔柯夫随机过程理论,建立了马尔柯夫模型,他的研究是建立在对于俄语的元音和辅音的统计数据的基础之上的,采用的方法主要是基于统计的经验主义的方法。

  1948 年,美国科学家香农(Shannon)把离散马尔柯夫过程的概率模型应用于描述语言的自动机。他把通过诸如通信信道或声学语音这样的媒介传输语言的行为比喻为“噪声信道”(noisy channel)或者“解码” ( decoding)。香农还借用热力学的术语“熵”(entropy)作为测量信道的信息能力或者语言的信息量的一种方法,并且他采用手工方法来统计英语字母的概率,然后使用概率技术首次测定了英语字母的不等概率零阶熵为4.03 比特。香农的研究工作基本上是基于统计的,也带有明显的经验主义倾向。然而,这种基于统计的经验主义的倾向到了乔姆斯基(Noam Chomsky)那里出现了重大的转向。

  1956 年,乔姆斯基从香农的工作中吸取了有限状态马尔柯夫过程的思想,首先把有限状态自动机作为一种工具来刻画语言的语法,并且把有限状态语言定义为由有限状态语法生成的语言,建立了自然语言的有限状态模型。乔姆斯基根据数学中的公理化方法来研究自然语言,采用代数和集合论把形式语言定义为符号的序列,从形式描述的高度,分别建立了有限状态语法、上下文无关语法、上下文有关语法和0 型语法的数学模型,并且在这样的基础 上来评价有限状态模型的局限性,乔姆斯基断言:有限状态模型不适合用来描述自然语言。这些早期的研究工作产生了“形式语言理论”(formal language theory)这个新的研究领域,为自然语言和形式语言找到了一种统一的数学描述理论,形式语言理论也成为了计算机科学最重要的理论基石。

  乔姆斯基在他的著作中明确地采用理性主义的方法,他高举理性主义的大旗,把自己的语言学称之为“笛卡尔语言学”(Descartes linguistics),充分地显示出乔姆斯基的语言学与理性主义之间不可分割的血缘关系。乔姆斯基完全排斥经验主义的统计方法。在1969 年的Quine's Empirical Assumptions 一文中,他说:“然而应当认识到,‘句子的概率’这个概念,在任何已知的对于这个术语的解释中,都是一个完全无用的概念”14。他主张采用公理化、形式化的方法,严格地按照一定的规则来描述自然语言的特征,试图使用有限的规则描述无限的语言现象,发现人类普遍的语言机制,建立所谓的“普遍语法”(universal grammar)。

  转换生成语法在20 世纪60 年代末到70 年代时期在国际语言学界风靡一时,转换生成语法对于自然语言的形式化描述方法,为计算机处理自然语言提供了有力的武器,有力地推动了自然语言处理的研究和发展。

  转换生成语法的研究途径在一定程度上克服了传统语言学的某些弊病,推动了语言学理论和方法论的进步,但它认为统计只能解释语言的表面现象,不能解释语言的内在规则或生成机制,远离了早期自然语言处理的经验主义的途径。这种转换生成语法的研究途径实际上全盘继承了理性主义的哲学思潮。

  在自然语言处理中的理性主义方法是一种基于规则的方法(rule-based approach),或者叫做符号主义的方法(symbolic approach)。这种方法的基本根据是“物理符号系统假设”(physical symbol system hypothesis)。这种假设主张,人类的智能行为可以使用物理符号系统来模拟,物理符号系统包含一些物理符号的模式(pattern),这些模式可以用来构建各种符号表达式以表示符号的结构。物理符号系统使用对于符号表达式的一系列的操作过程来进行各种操作,例如,符号表达式的建造(creation)、删除(deletion)、复制(reproduction)和各种转换(transformation)等。自然语言处理中的很多研究工作基本上是在物理符号系统 假设的基础上进行的。

  这种基于规则的理性主义方法适合于处理深层次的语言现象和长距离依存关系,它继承了哲学中理性主义的传统,多使用演绎法(deduction)而很少使用归纳法(induction)。

  自然语言处理中,在基于规则的方法的基础上发展起来的技术有:有限状态转移网络、有限状态转录机、递归转移网络、扩充转移网络、短语结构语法、自底向上剖析、自顶向下剖析、左角分析法、Earley 算法、CYK 算法、富田算法、复杂特征分析法、合一运算、依存语法、一阶谓词演算、语义网络、框架网络等。


转自:宗成庆《统计自然语言处理》序言

个人工具
工具箱