董振东:机器翻译漫谈二

取自 自然语言处理百科

跳转到: 导航, 搜索

  今天机器翻译比起10年前,可以说相当繁荣。但是我们愿意提醒,在这繁荣的后面,却存在着危机。前面说到那个ALPAC报告曾给机器翻译带来的创伤如今似乎已被抚平了。但实际上它的阴影始终会时不时地再出现在机译研究者的头上。如今随着有越来越多的机译系统走向市场,政府的投资者感到在这种情况下如果还要投资攻关似乎有点名不正言不顺了。而商家则只是想现在该是把现成的技术包装包装就可以赚钱的时候了。经常会听到老板们会这样问研究者,"你估计开发出产品要多长时间?你的系统正确率如何?",大概没有一个研究者会回答说,将来"正确率大约在百分之五十左右"的。如果果真那样回答,那么他的项目还不当场就被 "枪毙"了。可是现有的机译系统(不仅是英汉或汉英,国外的其他语言对的系统)在面对真实文本时,其正确率实际上有多少呢?机译的译文质量确实还远不能令人满意。近来国外有些人挖苦地说"MT,不是machine translation的缩写,而是mad translation (疯子的翻译)的缩写。他们是近乎要跟机译来番决战似的。他们劝说人们不要购买机译系统,要翻译的话应该雇翻译人员。国内也有人讽刺地说,有了机器翻译, "满篇英文难不住,满篇中文看不懂"。这些固然是比较极端的评价,但机译译文质量确实一直是个老大难问题。

  著名的机译评论家Hutchins在最近的机器翻译峰会上的发言中说,机译译文质量至今并没有取得实质性的进展,很多50年前未解决的问题如今依然存在。还有一种更加深层的危机,那是来自研究人员自身的。他们说"在现有的技术条件下,机译译文质量也只能这样了。"说这话时似乎他们不是"现有的技术条件"的创造者。这样一来,可能出现的情况将是投资者和研制者都在以较低水平的系统忙于行销赚钱,而不再有足够的经费和技术投入。机器翻译无论在理论上或是技术上都还未成熟。现在只是由于人们对于克服语言交流的障碍有着很强烈的需求,尤其是因特网的出现这种需求更显突出,机器翻译才获得了以较低的译文质量满足这种需求的机会,并利用这一机会来求得进一步的发展。我们对这一现实要有清醒的认识。在行销上,应切忌不切实际的宣传。现在在报纸杂志上常能见到关于机器翻译系统的过度夸张的宣传。从长远看,这是"自砸牌子"的不智作为。正确的做法是把产品拿到用户那里去,老老实实地告诉他们机译系统能做什么和不能做什么,如何来利用它,利用它之所长,避它之所短。同时根据用户的需求来调试和改进系统。换句话说,多做培养用户,培养系统,培养市场的工作。

  近20年左右,机器翻译研究的方法真可谓花样翻新,令人目不暇接,有基于规则的、基于知识的、基于语料库的、基于统计和语料库的、基于例子的、基于对话的等等,从另一种角度,还有直接法、转换法、中间语言法等等。但其中哪一种也未能在翻译质量上取得实质性的突破。如何才能取得实质性的改进呢?我们不妨先对现有的机译和人译做一番比较。

  机译:

  1.一句一句处理,处理第一句时不知道第二句的内容是什么,处理第二句时,也不再去参考第一句的内容了;

  2.对源语言的分析只是求解句法关系,完全不是意义上的理解;

  3.它的开发者要求它几乎是万能的,它似乎什么领域都能应付,从计算机到医学,从化工到法律,似乎只要换一部专业词典就可以了;

  4.它的译文转换是基于源语言的句法结构的,受源语言的句法结构的束缚;

  5.它的翻译只是句法结构的和词汇的机械对应。

  人译:

  1.一般会先通读全文,他会前后照应;

  2.对源语言是求得意义上的理解;

  3.只有专业翻译人员,没有一个是可以包打天下的万能翻译人员的;

  4.他的译文是基于他对源语言的理解,不受源语言的句法结构的束缚;

  5.他的翻译是一个再创造的过程。

  机器翻译研究归根结底是一个知识处理问题。它涉及到有关语言内的知识、语言间的知识、以及语言外的世界知识,其中包括常识和相关领域的专门知识。我认为从实用的角度看,全自动高质量的机器翻译不应该是个目标,至少不应该是近期的目标,但是从研究的角度说,全自动高质量却应该是个目标。因为这样我们不仅能够建立机译系统,而且能够探索人译的机制。近年来我在许多场合都强调机器翻译应该到了有所突破、有所创新的时候了。下个世纪的机器翻译研究应在如下三个方面有所突破:

  第一,大语境,而不再是一个句子一个句子孤立地处理;

  第二,基于理解,而不再是停留在句法分析的层次上;

  第三,高度专业化、专门化,而不再是个"万事通,样样松"了。

  在九月的峰会上几位机译权威教授都一致提出要进行深层次的基础研究,使对于源语言的分析基于理解。呼吁投资者加大对于基础研究,如大规模知识词典建设的投入。笔者经过十多年的努力建立的大型知识系统《知网》,今年已上网供研究免费使用。它引起了海内外学者的广泛注意,并已有人在它基础上开始进行新的探索,如上面介绍的基于理解的分析以及新的排除歧义的方法。请读者浏览www.keenage.com网页。

  随着因特网的普及,随着信息时代的到来,机器翻译的应用前景是广阔的。作为人类探索自己智能和操作知识的机制的窗口,机器翻译研究将更加诱人。愿50年来尚未解决的问题会在新世纪里得到解决。


编者注:这是董振东老师的一篇文章,从文中内容来看,应发表于1999年,但这篇文章的真知灼见现在看来也仍有很大的参考价值。

个人工具
工具箱