机器翻译:回顾与展望一

取自 自然语言处理百科

跳转到: 导航, 搜索

  摘要:在本世纪最后一次机器翻译高峰会议上,本文将简要回顾过去50年以来,从机器翻译诞生开始到现在所发生的事情,评价目前的状况,并预测会有一个怎样的未来。计算机翻译的基本过程并没有像计算机技术和软件的发展那样发生巨大变化。对于改善机器翻译输出的语言质量而言,仍然大有文章可作。对此基于规则方法和基于语料库方法的机器翻译都充满希望。对未来机器翻译前景的影响可能来自对在线实时多语交际的巨大需求。在这方面,质量也许不如易得性和可用性更重要。

1. 机器翻译:头40年,1949 - 1989

  也就是在50年前,Warren Weaver写下了他的著名的有关启动机器翻译研究的备忘录。这方面的研究首先在美国出现,而到50年代末则在全世界发展起来了。这还不是提到机器翻译的最早时间。事实上,早在1947年3月,Weaver就曾经写信给Norbert Wiener谈论此事。而Andrew Booth和Richard Richens在1948年也已经做了一些尝试性的实验。

  在那些早期岁月,以及后来的许多年中,计算机跟我们今天所熟悉的东西可不一样。那时的计算机个头大的惊人,要放在带有加强地板和通风系统的大房间里以便散热,并且价格昂贵。此外还需要一大帮维修人员和尽职尽责的操作人员和程序员围着它团团转。大多数工作进行数学计算,或者为军方服务,或者为大学物理系和应用数学系的军方项目服务。当时的机器翻译很自然地是得到军方支持,同时也就是为了翻译军事情报而研制的。比如在美国是俄——英机器翻译,而在苏联则是英——俄机器翻译。

  尽管在50年代和60年代机器翻译吸引了相当可观的资金,尤其是军备竞赛在1957年苏联第一颗人造地球卫星上天以及1961年Gagarin驾驶太空飞船航天飞行成功后进入白热化阶段更是如此,但这段时间的结果却令人失望。到1966年ALPAC报告(ALPAC是Automatic Language Processing Advisory Committee语言自动处理咨询委员会的缩写,这个机构是美国科学院1964年4月成立的)发表后,机器翻译在美国进入低谷时期。机器翻译研究者碰到的语言问题比他们预想的要多得多。这使得人们回忆起差不多5年前,一位机器翻译的热心人Bar Hillel曾经发表的一个有关机器翻译的批评性的评论。在那篇文章中,他拒绝所谓的FAHQT(全自动高质量的翻译)这样的理想目标——事实上,他提出了一个所谓的“不可能性”的证明——同时他提倡开发基于计算机的翻译系统,为人类译员提供帮助,即所谓的“人机共生”环境。ALPAC报告的作者同意上述诊断,并建议有关FAHQT的机器翻译研究应该停止,研究人员的注意力应该转向为翻译人员提供水平比原来所定的高目标要低一些的辅助系统。

  ALPAC发表之后的若干年,机器翻译研究仍在继续,但规模大不如从前了。到70年代中期,机器翻译研究取得了这样一些成果:1970年开始美国空军开始使用Systran[1]系统来作俄——英机器翻译;1976年加拿大开始用Meteo(气象)机器翻译系统翻译气象预报;欧共体购买了Systran系统的英——法版来帮助减轻它的翻译负担,此后其他欧洲语言的机器翻译系统开发也就接踵而来了。在80年代,机器翻译从后ALPAC的沉郁气氛中开始复苏,世界范围内的机器翻译研究活动又重新抬头——特别是在日本——新的研究思想(比如基于知识的和基于中间语言的系统等),新的资金支持(欧盟、计算机公司等),以及市场上首次出现的商用机器翻译系统等,都显示出机器翻译进入了一个崭新的发展新阶段。

  但是,80年代的机器翻译复兴仍然是把注意力几乎都集中在了人助自动翻译上,人助工作包括译前编辑(或受限语言),翻译期间的交互式解决问题,译后编辑等。而开发基于计算机的辅助翻译或“工具”仍然被相当程度地忽视了——尽管Alan Melby(1982)和Martin Kay(1980)为此鼓吹呼吁。 80年代几乎所有的研究活动都致力于在传统的基于规则和“中间语言”模式的基础上进行语言分析和生成方法的探索——这些方法都伴有人工智能类型的知识库,表现了更具创新性的潮流。译员的需要让位于商业兴趣:术语管理软件出现(例如Mercury/Termex)ALPNET在80年代上市了一系列翻译家工具,其中还包括“翻译记忆库”(Translation Memory)的早期版本。这是事先翻译好的双语对齐文本库。

2. 90年代的机器翻译

  真正的翻译家助手出现在90年代早期,即所谓的“翻译工作站”(Translation Worksation),比如Trados公司的Translator Workbench,IBM公司的TranslationManager/2,STAR Transit,Eurolang Optimizer等。混合了复杂的文本处理和出版软件,术语管理以及翻译记忆库等。

  在90年代早期,机器翻译研究被新兴的基于语料库的方法向前推进着,比如统计方法的引入(IBM公司的Candide计划),以及基于实例的机器翻译等。统计技术为先前独用的基于规则的方法带来了解放。消歧问题,代词指代以及更多的惯用法生成问题等,都由于基于语料库技术的应用而有了解决的希望。统计方法跟基于规则的方法一样也不能提供更多答案,但是跟10年前相比,现在提高输出译文质量的希望似乎更大一些了。正如许多观察家已经指出的,最有前途的方法可能是整合了基于规则和基于语料库的方法。现在许多商用机器翻译系统正在集成翻译记忆库,而许多翻译记忆库则正在被机器翻译方法所加强。

  90年代的最主要特征是机器翻译和翻译工具的使用迅速增加。商业和信息的全球化使得对翻译的需求日益增加。这不仅意味着跨国公司的机器翻译应用会持续增长,而且可以帮助产生高质量译文的系统的翻译服务也得到了广泛应用。直到最近,译文生成已经基本被看作是一个独立的活动。对大用户来说,翻译系统的引入已经促成了翻译和文件处理(技术写作和出版)的整合(参见 Hutchins 1998)。翻译现在已经被看作是信息交流过程中的一个阶段。这一市场的未来产品将不是分离的独立的机器翻译系统,翻译家工作站以及翻译工具等,而是多语文本处理软件,混合了文档创建、翻译和修订,文件归档,信息分析,检索和文摘等等功能。在一个集成环境中,公司的特别要求很容易得到适合的技术支持。


编者注:这是著名的机译评论家Hutchins发表在1999年MT Summit VII上的文章,标题为 Retrospect and prospect in computer-based translation

个人工具
工具箱