冯志伟:宗成庆《统计自然语言处理》一书序言六
取自 自然语言处理百科
在20世纪50年代末期到60 年代中期,自然语言处理中的经验主义也兴盛起来,注重语言事实的传统重新抬头,学者们普遍认为:语言学的研究必须以语言事实作为根据,必须详尽地、大量地占有材料,才有可能在理论上得出比较可靠的结论。
自然语言处理中的经验主义方法是一种基于统计的方法(statistic-based approach),这种方法使用概率或随机的方法来研究语言,建立语言的概率模型。这种方法表现出强大的后劲,特别是在语言知识不完全的一些应用领域中,基于统计的方法表现得很出色。基于统计的方法最早在文字识别领域中取得很大的成功,后来在语音合成和语音识别中大显身手,接着又扩充到自然语言处理的其他应用领域。
基于统计的方法适合于处理浅层次的语言现象和近距离的依存关系,它继承了哲学中经验主义的传统,多使用归纳法(induction)而很少使用演绎法(deduction)。
这个时期自然语言处理中的经验主义派别,主要是一些来自统计学专业和电子学专业的研究人员。在20 世纪50 年代后期,贝叶斯方法(Bayesian method)开始被应用于解决最优字符识别的问题。1959 年,布来德索(Bledsoe)和布罗宁(Browning)建立了用于文本识别的贝叶斯系统,该系统使用了一部大词典,计算词典的单词中所观察的字母系列的似然度,把单词中每一个字母的似然度相乘,就可以求出字母系列的似然度来。1964 年,墨斯特莱(Mosteller)和华莱士(Wallace)用贝叶斯方法成功地解决了在《联邦主义者》(The Federalist)文章中的原作者的分布问题,显示出经验主义方法的优越性。
20世纪50年代还建立了世界上第一个联机语料库:布朗美国英语语料库(Brown corpus)。这个语料库包含100 万单词的语料,样本来自不同文体的500 多篇书面文本,涉及的文体有新闻、中篇小说、写实小说、科技文章等。这些语料是布朗大学(Brown University)在1963-64 年收集的。随着语料库的出现,使用统计方法从语料库中自动地获取语言知识,成为了自然语言处理研究的一个重要方面。
20世纪60年代,统计方法在语音识别算法的研制中取得成功。其中特别重要的是隐马尔柯夫模型(Hidden Markov Model)和噪声信道与解码模型(Noisy channel model and decoding model)。这些模型是分别独立地由两支队伍研制的。一支是杰里内克(Jelinek),巴勒(Bahl),梅尔塞(Mercer)和IBM 的华生研究中心的研究人员,另一支是卡内基梅隆大学(Carnegie Mellon University)的拜克(Baker)等。AT&T 的贝尔实验室(Bell laboratories)也是语音识别和语音合成的中心之一。
在自然语言处理中,在基于统计的方法的基础上发展起来的技术有:隐马尔柯夫模型、最大熵模型、n 元语法、概率上下文无关语法、噪声信道理论、贝叶斯方法、最小编辑距离算法、Viterbi 算法、A*搜索算法、双向搜索算法、加权自动机、支持向量机等。
不过,在20 世纪60 年代至80 年代初期的这一个时期,在自然语言处理领域的主流方法仍然是基于规则的理性主义方法,经验主义方法并没有受到特别的重视。
这种情况在80年代初期发生了变化。在1983-1993 年的十年中,自然语言处理研究者对于过去的研究历史进行了反思,发现过去被忽视的有限状态模型和经验主义方法仍然有其合理的内核。在这十年中,自然语言处理的研究又回到了50 年代末期到60 年代初期几乎被否定的有限状态模型和经验主义方法上去,之所以出现这样的复苏,其部分原因在于1959年乔姆斯基对于斯金纳(Skinner)的“言语行为”(Verbal Behavior)的很有影响的评论在 80 年代和90 年代之交遭到了学术界在理论上的强烈反对,人们开始注意到基于规则的理性主义方法的缺陷。
这种反思的第一个倾向是重新评价有限状态模型,由于卡普兰(Kaplan)和凯依(Kay)在有限状态音系学和形态学方面的工作,以及丘奇(Church)在句法的有限状态模型方面的工作,显示了有限状态模型仍然有着强大的功能,因此,这种模型又重新得到自然语言处理学界的注意。
这种反思的第二个倾向是所谓的“重新回到经验主义”;这里值得特别注意的是语音和语言处理的概率模型的提出,这样的模型受到IBM 公司华生研究中心的语音识别概率模型的强烈影响。这些概率模型和其他数据驱动的方法还传播到了词类标注、句法剖析、名词短语附着歧义的判定以及从语音识别到语义学的联接主义方法的研究中去。
转自:宗成庆《统计自然语言处理》序言

