冯志伟:旅欧见闻-国外MT和HLT一
取自 自然语言处理百科
内容提要:本文介绍了作者在旅欧期间耳闻目睹的国外机器翻译和人类语言技术方面的情况,主要是德国、法国、英国、荷兰和美国的情况。
1999 年到2000 年,我应德国特里尔大学的邀请,在德国当了一年的客座教授(教授级别为C3)。这是我第二次到这个大学担任客座教授。在德国期间,我又有机会到欧洲其他国家访问,对于欧洲的计算语言学研究有所了解,我还有机会遇见了一些美国学者,也了解到他们最近的研究工作。本文拟对这些情况做一介绍。
题目中的MT是英文Machine Translation 的缩写,这个缩写大家都很熟悉了,众所周知,MT 是一种非常复杂而困难的技术。题目中的HLT,可能很多人不知道是什么意思,这是近年来国外常用的一个新术语,是英文Human Language Technology 的首字母缩写,它的意思是“人类语言技术”。这个缩写几乎成了“计算语言学”的同义术语,只是计算语言学更强调理论,而人类语言技术更强调技术。HLT 这个缩写术语最近常在国外文献中出现,因为在很多人看来,自然语言的计算机处理与其说是一门深奥难懂的学问,不如说是一种实实在在的技术。重技术轻理论,这是国内外共同的倾向,也是商品社会发展的要求。我认为这是一个好的倾向,我们搞理论研究的人,切不可轻视技术,我们不但在理论上要说得通,还要在技术做得好,让理论产生实用的效果,造福于人类。我想,这大概就是创造HLT 这个新术语的学者的良苦用心。HNC 理论是开创性的理论,这个理论几乎涉及人类知识的各个部门,博大精深,但是,在实用技术方面目前还没有明显的成果。我希望HNC 理论也同样要注意实际的技术,早日把理论付诸实用,让它开出实用的花,结出实用的果。
1. 德国
德国萨尔布吕肯大学(Saarbruecken Universitaet)是欧洲共同体EUROTRA 计划的主要成员之一,在机器翻译方面卓有成就,现在,是德国人工智能学DGKI (Deutsche Gesellschaft fuerKunstliche Intelligenz)的挂靠单位,该大学的语言学系和计算机科学系都进行计算语言学的教学和研究。近年来主要从事文本自动生成(Automatic Text Generation)的研究。德国的机器翻译系统主要有SUSY 和Metal。SUSY 系统可以进行俄语、英语、法语、世界语的机器翻译。Metal 系统由西门子公司(Siemens)与美国Austin 的德克萨斯大学(University of Texas,Austin)的语言研究中心(Linguistics Research Center,)联合研制,英德翻译系统已经商品化。现在由Sail-Lab 公司继续开发,并开始研究汉语的自动处理。SAIL-LABS 购买了Metal的版权,开展多语言MT 研究(包括汉语),中心在Munich, 分部设在荷兰、西班牙。
德国LHT 的最著名的工作是Verbmobile 计划,这个计划由卡尔斯鲁尔大学(KarlsruheUniversity)牵头,由德国联邦政府教育、科学、研究与技术部(BMBF)支持。其目的在于“通过工业及科学界尽可能多的分支领域的合作与集中,在下一个世纪的语言技术及其经济应用领域中为德国谋取国际领先地位”。Verbmobil 制定了1993-2001 年的研制计划,其中自1993年至1996 年的第一阶段计划吸收了德国、美国和日本的32 个企业和高等学校的成员参加,政府投入资金4690 万马克,企业投入资金310 万马克,第一阶段的目标是建立非特定人的、面向会面安排交谈的口语语音翻译系统,其原型系统已经完成,将进一步进行实时自然语音翻译。最近,Verbmobile 计划的研究已经融入了C-STAR。
C-STAR 是国际语音翻译联合会(Consortium for Speech Translation Advanced Research)的简称,1991 年成立,卡尔斯鲁尔大学是C-STAR 最重要的成员。C-STAR 是一个以口语语音翻译为基本研究目标的国际合作组织,由来自12 个国家的20 个成员组成。核心成员有来自7 个国家7 个单位:美国的卡内基-梅隆大学(CMU)、日本的ATR-ITL、德国的卡尔斯鲁尔大学UKA (University Karlsruhe)、法国格勒诺布尔大学自动翻译研究中心GETA-CLIPS、
意大利的科学技术研究所ITC-IRST、韩国的高级网络服务技术部ETRI、中国科学院自动化研究所国家模式识别重点实验室(NLPR)。其他成员有德国西门子公司(Siemens)、香港科技大学等。C-STAR 把多种语言的口语直接翻译作为一个科学工程来进行,通过建立平台和演示来推动口语语音翻译技术的迅速发展,使C-STAR 成为国际口语翻译技术转向工业应用的摇篮,以扫除人类的语言障碍。作为C-STAR 核心成员的中国科学院自动化所国家模式识别 重点实验室NLPR(national Lab of Pattern Recognition)已经建立了口语翻译的试验系统的相关平台,正在开发可初步实用的汉英口语语音机器翻译系统。
转自:冯志伟老师2002年在武汉HNC学术讨论会上的发言。

