番外篇:机器翻译漫谈二

取自 自然语言处理百科

跳转到: 导航, 搜索

  在前面两次主要由研究机构主导的机器翻译研究高潮先后陷于停滞之后,令人意外地,90 年代中期以后许多公司纷纷加入研究和开发机器翻译产品的队伍,机器翻译又一次受到社会各界的广泛关注。究其原因,随着互联网的迅猛发展,经济全球化时代的到来,是旺盛的市场需求促成了此次机器翻译的“假热潮”。之所以说其是假热潮,是因为这次热潮距离上一次的高潮只有几年,上一次高潮结束的原因主要是缺乏对自然语言的深入认识,而现在开发机器翻译系统仍然使用以前的语言学理论,其翻译质量肯定没有什么提高,不过是对之前理论模型的商业化包装,然后加以市场炒作而已。不过,这种炒作变相地推动了机器翻译概念和理论的普及,在研究机构之外,吸引了更多的组织和个人投身其中。可以说,今天机器翻译市场的发展,以及形形色色翻译软件和公司的涌现都是此次炒作的直接成果。

  在上面简单了解了机器翻译的发展历程之后,接下来,我们将分类介绍当前流行的几种机器翻译方法,并结合其对应的商业模式/产品试作比较分析。

  开始之前,我们先来看一种“假机器翻译”。目前市场中的机器翻译软件主要有两种形式,MT和TM。 公司里大家较为熟悉的是TM(Translation Memory,翻译记忆),如雅信CAT、塔多思(Trados)等。这类软件可帮助翻译人员提高工作效率,但却不能说是真正的机器翻译。它主要面向专业翻译人员和机构设计,以翻译记忆和人机交互为核心,主要是为了帮助专业翻译人员提高翻译效率,减少重复劳动,降低翻译成本,要求使用者具备独立的翻译能力。TM绕开了语言学的瓶颈,其原理是基于数据库,将翻译过的所有材料以句子为单位存入数据库。翻译时系统会自动对电子文档进行分析,100%匹配的句子可以自动替换,部分匹配的句子可根据匹配度提出翻译建议,而每次翻译又为以后积累句子。对于新用户,系统会给他提供诸多专业词库,并能将以前的翻译作品进行回收存档。通过使“相同的句子永远不需要翻译第二遍”, TM翻译软件可帮助翻译人员提高工作效率,但却不能说是真正的机器翻译。

  以市场中最流行的翻译记忆软件-Trados为例,其翻译结果如下:

  原文:If your work involves memory intensive applications, then an HP workstation, which offers 64-bit technology, should be your platform of choice.

  译文:

  1) 无(之前并无相似例句),或者,

  2) 如果您的工作中包含内存密集型应用,那么,具有64位优势的工作站无疑是您最佳的平台选择(数据库提供的相似例句)。

  与 TM 相对应,真正的机器翻译应该是MT(machine translation),目前主要有两类,即基于规则的方法和基于经验的方法。前者是先依据某种语言理论建立语言模型,再从语言模型构造规则系统,所以也叫基于规则的方法。这种方法在很长时间里曾经一直是自然语言处理的主流。后者是在调查和分析大规模语料的基础上,用统计学的方法处理自然语言。这种方法自九十年代初提出以后得到了迅速的发展,已经成为学科的主流之一。下面我们依次介绍。


转自:http://fane.cn/forum_view.asp?forum_id=39&view_id=42987

编者注:这是一篇佚名的机器翻译漫谈文章,与董老内行的角度不同,从内容和出处来看,这应是机器翻译门外汉的作品,刚好可以做个比较阅读。

个人工具
工具箱