冯志伟:宗成庆《统计自然语言处理》一书序言三

取自 自然语言处理百科

跳转到: 导航, 搜索

  近年来,统计自然语言处理发展迅速,取得了令人瞩目的成绩。统计自然语言处理的理论逐渐完善,形成了科学的体系,统计自然语言处理的应用硕果累累,产生了很好的社会效益和经济效益,在文字识别、语音合成等领域的技术已经达到了实用化的水平。统计自然语言处理的技术,还进一步应用到网络内容管理、网络信息监控、不良信息的过滤和预警等方面,并且与网络技术、图象识别和理解技术、情感计算(affective computing)技术结合起来,由此而产生了一些新的研究方向,在现代信息科学的发展中,起着越来越重要的作用。

  面对统计自然语言处理取得的这些令人鼓舞的辉煌成绩,有些学者的头脑开始发热起来,他们轻视自然语言处理中基于规则的方法,甚至贬低那些从事研究基于规则的自然语言处理的学者。这种局面使我感到困惑。

IBM公司的杰里内克(Fred Jelinek)是一位使用统计方法研究语音识别与合成的著名学者,他在统计自然语言处理研究中取得的成绩是人所共知的。我也很佩服他的成就。可是,他却看不起使用规则方法研究自然语言处理的人。他于1988 年12 月7 日在自然语言处理评测讨论会上的发言中曾经说过:“每当一个语言学家离开我们的研究组,语音识别率就提高一步。”(“Anytime a linguist leaves the group the recognition rate goes up.”) 根据一些参加这个会议的人回忆,当时杰里内克讲的话更为尖刻,他说:“每当我解雇一个语言学家,语音识别系统的性能就会改善一些。”(“Every time I fire a linguist the performance of the recognizer improves”.) 杰里内克的这些话,把基于规则的自然语言处理研究贬低到了一无是处的程度,把从事基于规则的自然语言处理研究的人,贬低到了一钱不值的程度,对于基于规则的自然语言处理,采取了嗤之以鼻的态度。

  2000 年,在美国约翰·霍普金斯大学(Johns Hopkins University) 的暑期机器翻译讨论班(Workshop)上,来自南加州大学、罗切斯特大学、约翰·霍普金斯大学、施乐公司、宾夕法尼亚州立大学、斯坦福大学等学校的研究人员,对于基于统计的机器翻译进行了讨论,以德国亚琛大学(Aachen university)年轻的博士研究生奥赫(Franz Josef Och)为主的13位科学家写了一个总结报告(Final Report),报告的题目是《统计机器翻译的句法》(“Syntax for Statistical Machine Translation”),提出了统计机器翻译的基本框架。奥赫在国际计算语言学2002 年的会议(ACL2002)上又发表论文,题目是:《统计机器翻译的分辨训练与最大熵模型》(“Discriminative Training and Maximum Entropy Models for Statistical Machine Translation”),进一步提出统计机器翻译的系统性方法,获ACL2002大会最佳论文奖。2003 年7 月,在美国马里兰州巴尔的摩(Baltimore, Maryland)由美国商业部国家标准与技术研究所NIST/TIDES (National Institute of Standards and Technology) 主持的机器翻译评比中,奥赫获得了最好的成绩,他使用统计方法从双语语料库中自动地获取语言知识,建立统计机器翻译的规则,在很短的时间之内就构造了阿拉伯语和汉语到英语的若干个机器翻译系统。伟大的希腊科学家阿基米德(Archimedes)说过:“只要给我一个支点,我就可以移动地球。”(“Give me a place to stand on, and I will move the world.”)而奥赫也模仿着阿基米德说:“只要给我充分的并行语言数据,那么,对于任何的两种语言,我就可以在几小时之内给你构造出一个机器翻译系统。”(“Give me enough parallel data, and you can have translation system for any two languages in a matter of hours.”)。奥赫在统计机器翻译方面的成就使我们高兴,他使我们看到了未来的机器翻译的曙光,令人鼓舞。可是,2006 年6 月奥赫在西班牙巴塞罗那举行的TC-STAR 机器翻译系统评测研讨会上的特邀报告《机器翻译的挑战》(Challenges in Machine Translation )中,他却认为:在统计机器翻译中,语料库的规模起着举足轻重的作用,而词法、句法和语义等语言知识对于机器翻译系统的性能几乎没有什么帮助,甚至有些语言知识还会起副作 用,帮倒忙。他也开始贬低语言规则在自然语言处理中的正面作用。

  杰里内克和奥赫都是在自然语言处理中卓有成就的学者,他们上述的言论值得我们中国的自然语言处理工作者注意,也值得我们深思。


转自:宗成庆《统计自然语言处理》序言

个人工具
工具箱