冯志伟:旅欧见闻-国外MT和HLT二

取自 自然语言处理百科

跳转到: 导航, 搜索

  2. 法国

  我在1978 年-1981 年曾经受中国科学技术大学研究生院的派遣,到法国格勒诺布尔大学(Universite de Grenoble) 的应用数学研究所(Institut de Mathematique Applique de Grenoble,简称IMAG)学习。IMAG 有一个遐迩闻名自动翻译研究中心,简称GETA: (Grouped’Etude pour la Traduction Automatique),当时我的老师就是著名数学家沃古瓦教授(B.Vauquois),他担任GETA 的主任。沃古瓦教授桃李满天下,Prolog 语言的发明人A. Colmerauer就是沃古瓦的及门弟子。阔别了二十年之后又回到GETA,我的老师沃古瓦教授已经去世,二十年以前的许多老朋友,如今已经成为国际计算语言学界的权威专家了,抚今思昔,人事沧桑,感慨万千。GETA 现在的主任是布瓦戴教授(Ch. Boitet)。他继承沃古瓦的事业,把GETA 建设成国际著名的计算语言学研究中心,他把机器翻译专用软件ARIANE-78 改进为ARIANE-X,从而使得原来必须在IBM 的CMS 操作系统下运行的ARIANE-78 程序可以在微型计算机环境下运行。ARIANE 包括ATEF, ROBRA, TRANSF 和SYGMOR 等软件包。其中,ATEF(Analysis de text en etat finit)是一个有限状态文本分析器,其数学模型是确定性的有限自动机(deterministic finite automata),主要用于词法分析 (morphological analysis);ROBRA (Arbre analysis)是一个树对树的转换器(tree to tree transformation),主要用于句法-语义自动分析( parsing ); TRANSF (TRANSFormation) 是一个词汇转换器( lexical transformation),用于编制机器词典;SYGMOR (Systeme pour la Generation MORphologique)是一个非确定的有限自动机(non-deterministic finite automata ),主要用于词法生成(morphological generation)。他们利用ARIANE 软件进行多语言机器翻译(Multilingual MT)实验。目前也编制多语言机器词典。   我还访问了施乐公司(XEROX)欧洲研究中心XRCE (XEROX Research Center in Europe),这个中心就在离格勒诺布尔不远的麦兰(Meylan, Grenoble)。众所周知,施乐公司是专门制造复印机的,该公司的复印机是这样地有名,以至于在英文词典中,xerox 也获得了复印机的意思,从专有名词变成了普通名词。   XRCE也进行LHT的研究。他们花了十年的时间专门研制有限状态分析算法(Finite State Calculus)和隐马尔可夫模型HMM (Hidden Markov Model),设计了独立于具体自然语言的有限状态分析软件(Language independent software)。于连(Julian)博士用有限状态分析器建立了汉语文本的自动切分和标注系统(segmentation and tagging of Chinese text),效果良好。大家知道,有限状态自动机是基于乔姆斯基正则文法(3 型文法)的,一般只用来进行词法分析,在计算语言学中很不起眼。XRCE 用了十年的工夫,以达摩祖师“面壁十年图破壁”的精神,以小见大,做出了世界公认的成果,实在令人钦佩。安娜(Anna)博士用HMM研制的法语自动标注系统(Tagging based on HMM)也取得了相当精确的词类自动标注效果。XRCE 还建立了术语管理系统(Terminology management system),他们正在进行从双语语料库中自动抽出术语(automatic extraction of terms based on bilingual corpus)的试验。   我还访问了XRCE 的多语言知识管理实验室MLKM (Multi Languages Knowledge Management)。他们研制的自动翻译复印机可以在复印的同时进行关键词的英法翻译,输入的是英文,复印出来的是法文。他们还研制了具有自动文摘功能的复印机,输入的是整篇的文章,复印出来的是这篇文章的摘要。此外,他们还研制了数字化的名片(Digitalized name card),可以在解码显示以数字方式储存在名片上的人的面孔;他们还研制了数字化的文本-图象扫描器,具有编辑功能。他们研制的用于互连网的全文搜索引擎,也给我留下了很深的印象。这些实用的LHT,展示了计算语言学广阔的应用前景。


转自:冯志伟老师2002年在武汉HNC学术讨论会上的发言。

个人工具
工具箱