统计机器翻译开源软件介绍二
取自 自然语言处理百科
4、第一个基于短语的统计机器翻译系统——法老(Pharaoh)
“法老”是较早公开的统计机器翻译系统,是由美国南加州大学信息科学实验室(Information Science Institute)的菲利普.科恩(Philipp Koehn)在2004年做博士论文期间编写的。可能由于较早的开源软件以“埃及(Egypt)”命名的缘故吧,这一系统也采用埃及的代表性事物“法老(Pharaoh)”命名。它是一个基于短语的(Phrased-based)统计机器翻译系统。为此,我们首先要了解一下基于短语的系统的工作原理。 基于短语的方法是目前比较成熟的统计机器翻译技术,它的主要思想是以短语作为翻译的基本单元。给定一个源语言句子,其翻译过程如下:
1. 对源语言句子进行短语划分;
2. 根据翻译模型翻译每个短语;
3. 对短语进行重排序。
“法老”正是基于这一思想的统计机器翻译系统。它包括两大部分;训练和解码。训练过程用来从语料库中获得统计知识。它利用了已有的开源软件GIZA++和SRILM,GIZA++用来训练词语对齐,SRILM训练语言模型。既然是以短语作为翻译的基本单元,因此还需要获得关于短语翻译的知识。通过前面的介绍我们知道通过GIZA++训练可以得到单词对齐,根据单词对齐我们可以进行短语抽取。请注意,这里我们所说的短语是指任意连续的单词串,而不管它是否具有语法意义。
我们能抽取到的双语短语有:(新华社 | Xinhua News Agency)、(新华社 北京 | Xinhua News Agency, Beijing)、(新华社 北京 二月 | Xinhua News Agency, Beijing, February)、(新华社 北京 二月 十二日| Xinhua News Agency, Beijing, February 12)、(新华社 北京 二月 十二日 电| Xinhua News Agency, Beijing, February 12, by wire)、(北京 | Beijing)、(北京 二月 | Beijing, February)、(北京 二月 十二日| Beijing, February 12)、(北京 二月 十二日 电| Beijing, February 12, by wire)、(二月 | February)、(二月 十二日 | February 12)、(二月 十二日 电| February 12, by wire)、(十二日 | 12)、(十二日 电| 12, by wire)、(电| by wire)。由此可见,从语料库中学习到的短语数量是非常庞大的。
解码过程(即翻译过程)实际上是一个搜索的过程。对于输入的句子,进行短语的划分,然后根据已有的短语表搜索它们的最优组合,产生最终的译文。这一部分并没有公开源码,不过在科恩写的文档中有非常详细的介绍,根据这些介绍可以很容易地进行实现。
“法老”的出现对于推动统计机器翻译的发展起到了非常大的作用,由于它原理简单,易于使用,很多研究者都在它的基础上进行试验,或者把它作为基线系统(baseline)进行比较。
5、中国第一个开源的统计机器翻译系统——丝路(SilkRoad)
“法老”的出现揭开了统计机器翻译的神秘面纱,然而其核心部分——解码器的源码仍然没有公开。为此,中国的研究人员联合开发了一个完全开放源代码的统计机器翻译系统——“丝路”。该系统由中国的五家研究机构和高校(中科院计算所、中科院自动化所、中科院软件所、厦门大学、哈尔滨工业大学)联合开发,并在2006年中国第二届统计机器翻译研讨会上发布。“丝路”包括以下模块:语料预处理及后处理模块“仙人掌”、词语对齐模块“楼兰”、短语抽取模块“胡杨”、以及三个解码器(“骆驼”、“绿洲”和“商队”)。
国内的统计机器翻译起步比较晚,在2004年左右才陆续有单位开始做相关的研究工作。很多人对统计机器翻译还非常陌生,对国际上的研究现状也不熟悉。针对这种情况,国内几家从事统计机器翻译研究的单位联合开发了“丝路”系统,希望它能够像古代的“丝绸之路”一样贯通中西,藉此既能让国外的同行了解我们的工作,也能使我们学习到国外的先进技术。“丝路”充分利用了国际上已有的开源工具,比如GIZA++,SRILM等,此外,联合开发单位还开发了三个解码器,并完全开放了源代码,第一次将一个完整的统计机器翻译系统公开,极大地促进了国内统计机器翻译的快速发展。
注:这是计算所何中军、米海涛博士及刘群老师写得一篇文章。

