机器翻译

取自 自然语言处理百科

跳转到: 导航, 搜索

目录

[编辑] 概览

机器翻译(Machine Translation,经常简写为 MT)是利用计算机把一种自然语言转变成另一种自然语言的过程,属于自然语言处理计算语言学的范畴。简单来说,机器翻译是透过将一个自然语言的字词取代成另一个语言的字词。用以完成这一过程的软件叫做机器翻译系统。

机器翻译可划分为基于规则的和基于语料库的两大类。前者由词典和规则库构成知识源;后者由经过划分并具有标注的语料库构成知识源,既不需要词典也不需要规则,以统计规律为主。机器翻译是随着语料库语言学的兴起而发展起来的,世界上绝大多数机译系统都采用以规则为基础的策略,一般分为语法型、语义型、知识型和智能型。不同类型的机译系统由不同的成分构成。抽象地说,所有机器翻译的的处理过程都包括以下步骤:对源语言的分析或理解,在语言的某一平面进行转换,按目标语言结构规则生成目标语言。技术差别主要体现在转换平面上。

[编辑] 现状

目前的机器翻译软件通常可允许针对特定领域或是专业(例如天气预报)来加以客制化,目的在于将词汇的取代缩小于该特定领域的专有名词上,以借此改进翻译的结果。这样的技术针对一些使用较正归或是较制式化陈述方式的领域来说特别有效。例如像是政府机关或是法律相关文件,这类型的文句通常皆比起一般的文句来的正式与制式化,其机器翻译的结果往往比起像是日常生活的对话这种非正式文件要来的好。

但是,机器翻译的结果好坏,往往取决于译入跟译出语之间在词汇、文法结构、语系甚至文化上的差异,例如英文与荷兰文同为印欧语系日耳曼语支,这两种语言间的机器翻译结果,通常便会比中文与英文间机器对译的结果要好很多。因此,要改善机器翻译的结果,人为的介入仍显相当重要,例如,某些机器翻译的系统若能够由人为的界定或选择哪个词语比较适合,则可大幅改进机器翻译的正确性语品质。

一般而言,大众使用机器翻译的目的,可能只是为了要得知原文句子或段落的要旨,而不是精确的翻译。总的说来,机器翻译还没有达到可以取代专业(人工)翻译的程度,并且也尚无法成为正式的翻译。

不过现在已有越来越多的公司尝试以机器翻译的技术来提供其公司网站多语系支援的服务。微软公司也尝试将其知识库(Knowledge Database,也常见简写成 KB)以机器翻译来自动翻译成多国语言,如同前面所提到的,这种特定领域的技术文件,由于词汇较为固定,以及文句较简单,通常机器翻译的效果相当不错。

[编辑] 历史

机器翻译的概念,最早也许可追溯到 17 世纪,哲学家笛卡儿提出所谓的世界语言(universal language)概念,其可为大众的主要语言、或是唯一保留的语言、或是第二主要语言。笛卡儿、以及莱布尼兹(Leibniz)、贝克(Cave Beck)、基尔施(Athanasius Kircher)、贝希尔(Johann Joachim Becher)等人都曾试图编写类似于统一语言的辞典。

直到近代,借由机械的辅助,机器翻译的可行性大为提升。20 世纪初期便有多位科学家与发明家陆续提出机器翻译的理论与实作计划或想法。1954 年美国乔治城大学的一项实验,将约 60 句的俄文翻译成英文,被视为机器翻译实际可行的开端。自此开始的十年间,政府与民间企业相继挹注相当的资金,用于机器翻译的研究之上。然而,ALAPC(自动语言处理顾问委员会,Automatic Language Processing Advisory Committee)在 1966 年提出的一项报告中表明十年来的机器翻译研究进度缓慢,未达预期。该项报告使得之后的研究资金大为减缩,直到近 1980 年代,由于电脑运算科技的进步,以及相对的演算成本的降低,才使得政府与民间企业针对机器翻译再次有了兴趣,特别是在统计法机器翻译的领域上。

中国机器翻译研究起步于1957年,是世界上第4个开始搞机器翻译的国家,60年代中期以后一度中断,70年代中期以来有了进一步的发展。现在,中国社会科学院语言研究所、中国科学技术情报研究所、中国科学院计算技术研究所、黑龙江大学、哈尔滨工业大学等单位都在进行机器翻译的研究;上机进行过实验的机器翻译系统已有十多个,翻译的语种和类型有英汉、俄汉、法汉、日汉、德汉等一对一的系统,也有汉译英、法、日、俄、德的一对多系统(FAJRA系统)。此外,还建立了一个汉语语料库和一个科技英语语料库。中国机器翻译系统的规模正在不断地扩大,内容正在不断地完善。

[编辑] 研究

机器翻译的研究是建立在语言学、数学和计算机科学这3门学科的基础之上的。语言学家提供适合于计算机进行加工的词典和语法规则,数学家把语言学家提供的材料形式化和代码化,计算机科学家给机器翻译提供软件手段和硬件设备,并进行程序设计。缺少上述任何一方面,机器翻译就不能实现,机器翻译效果的好坏,也完全取决于这3个方面的共同努力。

整个机器翻译的过程可以分为原文分析、原文译文转换和译文生成3个阶段。

在具体的机器翻译系统中,根据不同方案的目的和要求,可以将原文译文转换阶段与原文分析阶段结合在一起,而把译文生成阶段独立起来,建立相关分析独立生成系统。在这样的系统中,原语分析时要考虑译语的特点,而在译语生成时则不考虑原语的特点。在搞多种语言对一种语言的翻译时,宜于采用这样的相关分析独立生成系统。也可以把原文分析阶段独立起来,把原文译文转换阶段同译文生成阶段结合起来,建立独立分析相关生成系统。在这样的系统中,原语分析时不考虑译语的特点,而在译语生成时要考虑原语的特点,在搞一种语言对多种语言的翻译时,宜于采用这样的独立分析相关生成系统。还可以把原文分析、原文译文转换与译文生成分别独立开来,建立独立分析独立生成系统。在这样的系统中,分析原语时不考虑译语的特点,生成译语时也不考虑原语的特点,原语译语的差异通过原文译文转换来解决。在搞多种语言对多种语言的翻译时,宜于采用这样的独立分析独立生成系统。

迄今存在和正在研制的机器翻译系统按其加工的深度可以分为3种类型:第1类是以词汇为主的机器翻译系统;第2类是以句法为主的机器翻译系统;第3类是以语义为主的机器翻译系统。

从美国乔治敦大学的机器翻译试验到50年代末的系统,基本上属于第1类机器翻译系统。它们的特点是:①以词汇转换为中心,建立双语词典,翻译时,文句加工的目的在于立即确定相应于原语各个词的译语等价词;②如果原语的一个词对应于译语的若干个词,机器翻译系统本身并不能决定选择哪一个,而只能把各种可能的选择全都输出;③语言和程序不分,语法的规则与程序的算法混在一起,算法就是规则。由于第一类机器翻译系统的上述特点,它的译文质量是极为低劣的,并且,设计这样的系统是一种十分琐碎而繁杂的工作,系统设计成之后没有扩展的余地,修改时牵一发而动全身,给系统的改进造成极大困难。

60年代以来建立的机器翻译系统绝大部分是第 2类机器翻译系统。它们的特点是:①把句法的研究放在第一位,首先用代码化的结构标志来表示原语文句的结构,再把原语的结构标志转换为译语的结构标志,最后构成译语的输出文句;②对于多义词必须进行专门的处理,根据上下文关系选择出恰当的词义,不容许把若干个译文词一揽子列出来;③语法与算法分开,在一定的条件之下,使语法处于一定类别的界限之内,使语法能由给定的算法来计算,并可由这种给定的算法描写为相应的公式,从而不改变算法也能进行语法的变换,这样,语法的编写和修改就可以不考虑算法。第2类机器翻译系统不论在译文的质量上还是在使用的方便上,都比第1类机器翻译系统大大地前进了一步。

70年代以来,有些机器翻译者提出了以语义为主的第3类机器翻译系统。引入语义平面之后,就要求在语言描写方面作一些实质性的改变,因为在以句法为主的机器翻译系统中,最小的翻译单位是词,最大的翻译单位是单个的句子,机器翻译的算法只考虑对一个句子的自动加工,而不考虑分属不同句子的词与词之间的联系。第3类机器翻译系统必须超出句子范围来考虑问题,除了义素、词、词组、句子之外,还要研究大于句子的句段和篇章。为了建立第3类机器翻译系统,语言学家要深入研究语义学,数学家要制定语义表示和语义加工的算法,在程序设计方面,也要考虑语义加工的特点。

目前世界上绝大多数的机器翻译系统都是第 2类机器翻译系统,研究的重点主要放在句法方面。有些系统以句法为主,适当增加了一些语义参数,以解决句法上的歧义问题。由于语义研究还不成熟,建立第3类机器翻译系统还有相当大的困难。

[编辑] 相关文章

个人工具
工具箱