统计机器翻译开源软件介绍三

取自 自然语言处理百科

跳转到: 导航, 搜索

6、摩西(Moses)

  “摩西”是“法老”的升级版本,增加了许多功能。它是由英国爱丁堡大学、德国亚琛工业大学等8家单位联合开发的一个基于短语的统计机器翻译系统。来自这8家单位的研究人员于2006年在约翰霍普金斯大学召开了一次研讨会,利用6个星期的时间共同开发了这一系统。整个系统用C++语言写成,从训练到解码完全开放源代码,可以运行在Windows平台和Linux平台。

  相比于“法老”,“摩西”主要有如下几个新的特性:

  • 使用要素翻译模型(Factored Translation Model)

  在一般的统计机器翻译系统中,翻译的过程就是将源语言文本翻译为目标语言文本。这一过程仅仅考虑了单词的词形,例如将“房子”翻译为“house”。但是,语言现象是非常复杂的,在英语中,单词就有单复数形式、时态变化等等。在一般的处理过程中,“house”和“houses”被看作完全不同的两个词,这显然不合理。要素翻译模型就是为了处理这种情况而诞生的。

  在要素翻译模型中,一个单词不仅仅是一个符号(token),而是一个包含多个要素的向量,例如词目、词性等。这些要素共同作用来刻画一个单词。例如对于“houses”,它有以下要素:词目是“house”,词性是“NN”。表示为“houses|house|NN”。在翻译的过程中这些要素被分别翻译,例如源语言的单词翻译为目标语言的单词,源语言单词的词性翻译为目标语言的词性等。在翻译完成后,根据这些要素来产生最终的单词,比如最终“房子”对应译文的要素是“名词,复数形式”,我们就可以选择“houses”,而非“house”。

  • 混合网络解码(Confusion Network Decoding)

  当前的机器翻译系统能够接受的输入一般是纯文本形式的一串单词(一句话或者一篇文章),而现在将机器翻译系统作为一个大的信息处理系统的组成部分的需求日益增长,它的输入可能不再是纯文本的形式,而是其它模块的输出结果,例如命名实体识别的结果,或者语音识别的结果。这样的输入不再是单一的,而是可能含有错误的、多种可能性的输入。混合网络解码允许这种多可能性的输入,最终选择最优译文。

  此外“摩西”还提供了丰富的测试工具,供研究者测试系统的性能,跟踪系统运行等。这一系统的性能已经超过了“法老”,目前还在不断地完善。

7、基于句法的统计机器翻译系统——GenPar

  GenPar是Generalized Parsing 的缩写。这一工具包实现了一个基于句法的统计机器翻译系统。基于句法的方法将句法结构信息引入到统计机器翻译中来,目前已成为统计机器翻译领域的研究热点。但是构建基于句法的统计机器翻译系统远比构建基于短语的要困难得多,为了让研究者们很快进入这一领域,在JHU2005夏季研讨会上,由纽约大学艾·丹·米拉姆德(I. Dan Melamed)等人组成的统计机器翻译组开发了GenPar。

  GenPar的基本原理是利用多文本语法(Multi-Text Grammar)实现多语言的句法分析、结构对齐和翻译。多文本语法是一种多种语言的同步语法,理论上比较完善,功能强大。GenPar有很多特点:首先,该系统是一个纯粹基于句法的模型,在翻译过程中充分利用了句法结构信息;其次,它具有很好的定制能力,可以实现各种不同类型的基于同步语法的统计机器翻译,很适合于做一个实验各种理论的研究平台。总的来看,该系统功能比较强大,但由于其比较复杂,掌握起来比较困难,性能也不是太高,不太适合处理太大规模的数据。由于该系统采用纯粹基于句法的方法,理论上有点超前,性能比现有的基于短语的模型稍差。

  GenPar提供了四个原型系统(sandbox)分别是:阿拉伯语到英语(AtoE),法语到英语(FtoE),英语到法语(EtoF)和英语到英语(EtoE)。其执行过程可以分为三个部分:训练、应用和评测。我们可以清楚地看出整个系统的执行过程,对基于句法的统计机器翻译流程有清晰的了解。

1. 训练(train):

  • 输入(input)双语平行训练语料;
  • 前处理(preprocess):包括分词(tokenization)和句法分析(parsing);
  • 词到词翻译模型(word-to-word translation model):从训练语料中生成词到词的对齐信息;
  • 层次对齐模块(hieralign):利用训练语料、句法分析树以及对齐信息抽取层次对齐树对(Hierarchically Aligned Tree Pair);
  • 初始语法模块(initgrammar):利用抽取的层次对齐树对生成加权多文本语法(Weighted Multi-Text Grammar);
  • 再训练模块(retrain):对加权多文本语法进行优化。

2. 应用(apply):

  • 输入(input)源语言,如果要进行多语言句法分析(multi-parser)则还要输入目标语言;
  • 前处理(preprocess):进行分词等预处理工作;
  • 多语言句法分析(multiparse):根据加权多文本语法对源语言和目标语言对进行句法分析,生成多语言句法分析树;
  • 翻译(translation):根据加权多文本语法对源语言进行句法分析同时生成目标语言句法树,将目标语言句法树对应的词串输出便得到相应的翻译结果。

3. 评测(evaluate):

  • GenPar还提供了翻译评测模块,使用GTM(General Text Matcher)作为评测指标。

  本文主要介绍了在统计机器翻译领域重要的一些开源软件。这些软件对于促进统计机器翻译的发展起到了不可估量的作用。在科研领域,很少有哪个领域能像统计机器翻译这样有如此众多的开源工具可以使用。或许,是因为统计机器翻译实在是一个非常困难而又极具挑战性的工作,非得全世界的研究者联合起来共同合作不能完成;抑或是现在统计机器翻译的商业利益还不明朗,将代码藏起来也无利可图,干脆公开了,大家一起研究一下,共同进步。不管怎样,对于促进技术进步而言,这毕竟是一件好事,大家都希望能够得到“免费的午餐”。当然,我们也不能坐享其成,也要做出自己的贡献,让更多的人了解我们的工作,在自己的研究领域占居一席之地。诚如巴斯德所言,“科学是没有国界的”,开源软件正是体现了这一精神。如果研究人员能够通力合作,相信一定能够建立起统计机器翻译的“巴别塔”。


注:这是计算所何中军、米海涛博士及刘群老师写得一篇文章。

个人工具
工具箱