番外篇:机器翻译漫谈三

取自 自然语言处理百科

跳转到: 导航, 搜索

  基于规则的方法(RBMT),也称为基于符号的方法、基于语言学的方法和基于人工智能的方法等等。这种方法的工作过程是,先把语句分成几个单词,通过存放于机器数据库内的电子字典查清词义,根据语法规则分析语句的意思,并把它变换成概念构造,然后借助语言模型生成目标语言。尽管从原理上来看,要实现这一系列步骤并不困难,但由于语言的特殊性和多样化,以及人工智能技术发展水平的限制,目前要做到不同语种间正确互译是不可能的。具体而言,要使机器系统输出令人满意的结果,就要有适用于信息处理的语言理论和语言模型。而当前语言学理论和语言处理技术的研究还不能满足这些要求。我们很难用规则的形式把所有的语言事实和理解语言所需的广泛的背景知识充分地表达出来。所以,基于规则的自然语言处理系统往往只能在极其受限的某些语言环境中获得一定的成功,还无法有效地处理任意的语言现象。这一点在汉语言的处理上尤其明显。汉语分析除普遍存在的一些困难(如一词多义、结构歧义、语义歧义等等)之外,还存在一些特殊的困难,主要表现为以下几个方面:1)汉语同一词类担任多种语法成分且无形态变化;2)汉语句子的构造原则与短语的构造原则基本一致;3)汉语中的虚词;4)汉语的语序;5)汉语的书写习惯。其中前两个特点关系到对汉语语法的全局的认识,而造成这两个特点的根源都在于汉语词类无形态变化。

  因此,这类机器翻译方法对应的翻译软件,如金山快译、东方快车等,其主要用途是为了帮助英文不好的用户提供翻译参考,但准确性不高。以国内市场中最流行的机器翻译软件金山快译为例,其翻译结果如下:

  原文:If your work involves memory intensive applications, then an HP workstation, which offers 64-bit technology, should be your platform of choice.

  译文:如果你的工作牵连记忆强烈的应用,然后HP workstation,哪个出价64-小块技术,应该是你的平台特别的。

  因为基于规则的方法存在以上缺陷,为了突破规则方法的局限,基于经验的方法采用了一种基于语料库的方法,对大规模非受限的自然语言进行调查和统计,从语料库中存储的大量真实文本中直接获取各种语言分析规律和言语知识,用来处理自然语言。另外,经验主义的方法还能够借助更多的语言材料来检验传统的理论语言学依靠手工搜集材料的方法所得出的各种结论。基于经验的方法可分为基于实例的方法和基于统计的方法两种。前者的基本思想是:建立双语语料库,分别存放各种语言成分的大量实例及其对应的译文,翻译时,系统先在语料库中寻找与源文类似的例子,然后模仿例子完成从源文到译文的转换;后者则是在语料库中用统计学的方法计算语言翻译概率模型的参数,也需要大型的双语语料库。归纳来说,这两种方法的目的都是从语料库中存储的大规模真实文本中直接获取需要的语言知识,以便克服基于规则的方法所带有的那些缺陷。

  虽然基于经验的方法借助语料库的工作方式绕开了语言学难题,但也有它自己难以克服的缺陷。在人们对语言的机制还缺乏系统了解,还没有一种适合信息处理的语言理论可以应用的时候,经验主义实际上是一种依靠“量”来获取“质”的策略。也就是说,它认为大量语言现象的统计规律能够确切地反映语言的内部结构规律和言语过程的认知规律。实际上,这正是它还有待证明的东西。而在实际操作中,即使是完全不用规则的基于统计的语言信息处理系统,也不可能完全避开语言表层的结构性信息和结构规律,比如目前研究最广发的基于实例的方法就仍有双语对齐和实例匹配检索机制等问题尚有待解决。

  基于经验的方法的商业化代表是Google在线翻译。仍拿上面的例句作测试,其翻译结果如下:

  原文:If your work involves memory intensive applications, then an HP workstation, which offers 64-bit technology, should be your platform of choice.

  译文:如果您的工作涉及记忆密集的应用程式,然后一HP工作站,提供了64位技术,应该是您的首选平台。 从翻译结果来看,基于经验的方法要明显好于基于规则的方法,尤其“首选平台”一词,更是具有机器翻译难以想像的“人情味”。但是,此法的翻译质量严重依赖于语料库的规模和相关性,同时语料的正确性也非常重要,否则就会出现可怕的翻译错误,前段时间闹得沸沸扬扬的google翻译辱华事件就是最好的例子。当时在 Google网站的自动翻译工具中,选择中译英时,输入“物极必反”出现翻译结果为:**(Taiwan independence),输入“中国台湾”时,出现翻译结果:中国和台湾(China and Taiwan);选择英译中时,输入“I thought this was shame” 出现翻译结果 “我认为这是中国的耻辱”,输入 “f”开头的英文脏话时,Google更是将其离奇地译为“我认为这是中国运动员良好”。虽然事后Google中国公司出面澄清,但还是造成了不好的影响。而要确保海量语料库中每个例句的正确性,这无疑又是一个不可能完成的任务。

  最后,在了解机器翻译的发展历程和现状之后,大家可能会有一个疑问,机器翻译目前发展如火如荼,那么它是否有一天会替代人工翻译?我想不会。虽然机器翻译在速度、成本、术语一致性和资料保密性等方面拥有诸多优势,但是它的翻译质量远未完美、翻译范围受限于专业词汇和语料库规模,同时仅适用于固定体裁的文稿。无论是基于规则或基于经验来翻译,机器翻译都更适合翻译描述具体事物且文体较为简单固定、重复率较高的文稿,如科技文章、技术手册以及使用指南等等。而对于语言水平较高的文章,如新闻稿、产品介绍、解决方案,因为大量使用引喻、暗喻及特殊文法结构,就一定需要译者的主观理解、选择和判断。同时,选择机器翻译还是人工翻译,决定因素之一是客户的实际翻译需求,是需要印刷传播,还是仅内部参考,是要字句精读,还是仅了解梗概,是要华彩动人,还是仅粗辞达意。作为一项收费服务,语言可以有不同的标准,满足不同的需求,对应不同的标价。对于提供翻译服务的我们而言,与其争论机器翻译对人工翻译的替代可能,不如努力在翻译服务这块市场中挖得更深。


转自:http://fane.cn/forum_view.asp?forum_id=39&view_id=42987

编者注:这是一篇佚名的机器翻译漫谈文章,与董老内行的角度不同,从内容和出处来看,这应是机器翻译门外汉的作品,刚好可以做个比较阅读。

个人工具
工具箱