冯志伟:旅欧见闻-国外MT和HLT五

取自 自然语言处理百科

跳转到: 导航, 搜索

  6. 美国

  在欧洲期间的一些学术活动中,我遇到了美国的一些同行。例如,在捷克的布拉底斯拉发(Bratislava)举行的TELRI 会议上,我见到了格语法的创始人菲尔摩(C. Fillmore),在希腊的雅典举行的LREC 会议上,我见到了美国宾州树库(Penn Tree)的负责人尤喜(A. Joshi)教授。在欧洲我还可以及时地阅读到各种外文学术刊物,眼界大开。在同美国这两位著名学者的交谈中,在阅读学术刊物中,我了解到美国MT 与LHT 的一些情况,下面,我主要介绍一下美国IBM 公司基于统计的机器翻译研究。

  1994 年,美国IBM 的Adam L. Berger 等人,采用全统计的法英语料库对齐方法,经过五年的努力,利用对齐了的法语和英语的2205733 个句子对,在IBM 15 台530H Power 工作站上,运行3600 小时,开发了一个法语-英语的机器翻译系统。

  与基于规则的SYSTRAN 系统相比较(不受限文本),这个基于统计的机器翻译系统的成绩是令人鼓舞的:

           译文流畅的句子          译文可读的句子

    SYSTRAN      .540              .743

    IBM (自动翻译)   .580              .670

  可以看出,译文流畅句子的比例,IBM 的系统超过了SYSTRAN,而译文可读句子的比例,SYSTRAN 略高于IBM 系统,这说明,基于统计的机器翻译系统有可能超过基于规则的机器翻译系统。

  IBM 的基于统计的机器翻译的特点是:

  •  不以词汇作为处理单元,而以语段 (chunk) 作为处理单元(Abney, 1995);
  •  采用相似理论和对齐方法,使用统计方法进行句法处理。

  这种基于统计的机器翻译方法,主要工作是:

  •  构造大容量的网络上的双语电子基本词典;
  •  严格定义扩展语段,给出形式定义,利用有限状态自动机进行原语语段(chunk)的自动获取;
  •  语段的分类与归纳,构造模板库(Template Base);
  •  构造大容量的网络上的双语语段词典(chunk Dictionary), 约1000 万条;
  •  研究机器可读电子词典中搭配短语的获取算法,构造大容量的网络上的双语搭配词典;
  •  研究模板的相似度算法以及双语对齐(alignment)的方法;
  •  完善网络上的双语专业术语词典,给出基于词尾变化的语料库短语词性标注算法;
  •  研究原语未登录词的识别算法;
  •  建立基于语段的机器翻译系统。

  IBM 公司的西拉魏格纳(F. Ciravegna) 提出了确定英语语段的原则,英语语段形式是有严格限制的,按层次可以分为如下4 种:

  1. 单义词

  2. NP = (adv* adj*) noun* (adv* adj*)

    VG = (adv)* Verb* (adv)*

  3. DP = Det* NP

    PP = Prep Det* NP

    VP = (adv)* (auxiliary)* VG

4. 常用子句

  IBM 机器翻译系统的双语语段词典是机器自动从语料库中获取的,共1000 万条。这种大规模的语段词典,成为了机器翻译最重要的知识源。

  美国菲尔摩(C. Fillmore)教授向我介绍了他最近主持的框架网络FrameNet 的进展情况,这个课题得到了美国国家基金的支持,采用框架来描述英语动词的语义关系,有很大的实用价值和理论意义。

  美国尤喜(A. Joshi)教授向我介绍了LDC (Linguistic data Consortium)的情况,LDC 是语言数据资源联合会,会员把自己的语料库提供给LDC,同时就可以共享LDC 的资源,现在LDC 现在已经:有163 个语料库(包括文本语料库和口语语料库),他们还有中文的树库。语料库的建设是很艰巨的工作,为了避免重复劳动,共享语料库的资源,这是很聪明的办法。现在我国已经建立了不少的汉语语料库,如何实现资源共享,避免重复劳动,LDC 的经验是值得我们借鉴的。

  我在欧洲一年,见闻有限,上述介绍难免挂一漏万,仅供参考。不妥的地方,请诸位批评指正!

  HNC 在理论建设方面的成绩是引人注目的,但是,在实用技术方面,特别是在MT和HLT方面还显得比较薄弱,希望HNC 在不久的将来,在MT 和HLT 方面都取得卓有成效的突破,从而显示HNC 理论的威力。


转自:冯志伟老师2002年在武汉HNC学术讨论会上的发言。

个人工具
工具箱