刘群:计算所与北大往事回顾二

取自 自然语言处理百科

跳转到: 导航, 搜索

开始独立研究·跟北大计算语言所合作

硕士毕业后,我就一直在考虑今后的研究方向。导师张祥给了我很大的选择余地,让我自己做出选择。经过一段时间考虑,我还是决定继续做机器翻译研究。我选择的课题是汉英机器翻译。之所以选择这个课题,是因为当时陈肇雄做的主要是英汉翻译,我不希望做的工作跟他们重复,另外,从研究角度说,汉英机器翻译难度更大,对汉语研究来说意义也更大。张祥老师同意我的选择,并许诺给我尽可能的支持。方向定下来以后,我就开始埋头考虑设计方案,到1993年上半年,初步的设计方案已经成型,系统设计已经详细到了模块一级,词典、规则库的定义也都已经完成。这时我开始考虑寻找合作者。由于做汉英翻译的研究主要需要寻找汉语语言学方面的合作者,我首先想到了北京大学计算语言学研究所的俞士汶老师。俞士汶老师是我硕士论文答辩的主席,他的学者风度给我留下了深刻印象。我主动找上门去跟俞老师讨论合作事宜。现在想起来确实冒昧。那时我还是一个刚刚硕士毕业的学生,俞老师已经是成名的学者,而我又要求进行以我为主的合作,现在看起来,几乎是一件不太可能的事情。没想到这次合作竟然奠定了我们以后长期合作的基础,我也最终成为了俞老师的博士研究生。这是后话,下面还会说到。

当时俞老师在仔细听取了我的设想以后,初步同意了合作,但希望能够在仔细研究我的设计方案后再做出最后决定。我回去后,就把总体的设计方案交给了俞老师,其中词典设计和规则库设计都是用类似BNF范式的形式描述的。俞老师在仔细研究了我的方案后,完全同意了跟我合作,我们签署了一个简单的合作协议,由计算所提供很少的一笔研究经费和一台计算机,北大协助我按照我的设计方案,完成词典和语料库的设计和调试,双方共同合作开发一个汉英机器翻译系统。合作期限是1993年8月到1995年1月。

协议签署后,我们就分头开始了开发。我主要进行软件开发,北大一个小组在我的指导下进行词典和规则库的开发。当时北大这个小组由当时在北大读硕士的周强负责,参加的人有段惠明老师、王惠老师、硕士生和博士生詹卫东、博士生常宝宝、硕士生陶晓鹏等人。到1995年,一个原型系统已经完成,这个系统运行于Sun工作站之上,词典规模只有5000条。虽然这个原型系统还很简单,但已经具备了一个机器翻译程序所需的基本功能。初步的成功让我们备受鼓舞,我和俞老师都同意将这项合作继续进行下去,开发一个初步实用的汉英机器翻译系统。

1996年和1997年,我们又就这个项目跟北大签署过两个补充协议,一方面是继续合作,另一方面,我们以非常优惠的价格购买了北大开发的一些语言资源和工具。这一阶段,除了软件的继续完善以外,还有两件工作量比较大的事情,一个是将系统从Unix平台移植到Windows平台,另一个是词典的开发。词典的知识来源主要有三个部分。第一部分是汉语的语法信息,主要来源于北大提供的汉语语法信息词典。第二部分是词的语义信息,是我们课题组自己独立开发的,我们设计了一套当时比较先进的语义描述体系,一方面通过一个语义分类体系(现在通常称为本体Ontology)描述每个词的语义,还可以对每个词配价关系的描述来说明一个词可以跟哪些语义的词搭配。这部分开发工作由北大的王惠老师负责。第三部分是汉语词到英语词的翻译信息,也是我们根据几部汉英词典独立开发的。1996年,我们就汉英机器翻译系统申请了863项目并得到了支持,经费16万元人民币,不久以后又得到了一个计算所所长基金的支持,这标志着我们的机器翻译研究正式从自选项目的状态转入了官方认可的状态。1998年,863项目结束,我们的系统也初步开发完成。当年,我们参加了863专家组组织的中文信息处理与智能人机接口技术评测,参加汉英机器翻译评测的共有三个系统,我们在翻译质量方面以比第二名微弱的优势获得第一,但在用户界面方面,由于程序运行过程中的一个错误被扣分,导致总分名列第二。当时的评测结果全文刊登在《计算机世界》报上。这是我们的系统第一次出现在公众视野中,应该说,成绩还不错。这次评测给了我们很大的信心。

从我1992年毕业到1998年我们的系统在863评测中取得较好的成绩,我的工作应该说出现了一个小的高潮。这一年我的一篇论文发表在美国的AMTA会议上,我在1997年评上了副研究员。更重要的是,我在工作中结识了很多今后非常好的朋友。在计算所,除了我以外,先后加入了我这个小组的有博士生刘颖、王斌、李素建、鲁松和员工叶煜。王斌后来留在计算所,先后在软件室和前瞻研究中心工作,现在是前瞻研究中心信息检索课题组组长。刘颖毕业后去了清华大学当老师。李素建和鲁松来得比较晚,很快就随着所里的改革进入新所软件室,叶煜工作很短时间后就离所了。北大的詹卫东这期间获得了硕士学位,并开始攻读博士学生。我们几个人长年在一个办公室工作,结下了深厚的战斗友谊。特别值得一提的是詹卫东,他在我这个课题组工作的时间最长。他是北大中文系陆俭明教授的学生,在汉语语法研究方面有很深厚的功底,对汉语的各种语言现象非常熟悉,在课题组内负责规则库的编制和调试。对于他来说,用形式化的计算机规则方式处理语言是一种全新的体验,尤其是在进行机器翻译的时候,就会发现,机器翻译所要处理的语言学问题跟他平时在语言学领域关心的语言学问题差距非常大,他会经常发现各种各样的问题提出来跟我们讨论。而我当时也对汉语的分析非常感兴趣,看了很多语言学、特别是汉语语法理论的书籍,我们经常就语言学中的大大小小的各种问题进行非常深入的探讨。由于机器翻译几乎涉及到一种语言的所有各种语言知识,所以我们的讨论也涉及到了语言学的方方面面,我们把语言学中的很多概念按照我们的理解重新进行了清理,形成了我们共同的一些理念。这种讨论让我们都受益颇深,对我们今后的工作都产生了非常深远的影响。对我来说,我从一个语言学的门外汉变成了一个“票友”,对语言学的各种理论我至今都有着浓厚的兴趣。语言对我来说不再只是计算机处理的一堆数据,而是在其背后隐藏着深刻的规律性。到现在,虽然我们已经完全转到了统计机器翻译这个方向,但我并没有像一些纯粹的经验主义者一样,对语言知识在机器翻译翻译中的应用失去信心,而是一直坚持把一些语言学的知识引入到统计方法中,并获得了某种程度的成功。我也坚信,结合语言知识的统计模型将是机器翻译方法的最终归途,我们将沿着这个方向一直走下去。对于詹卫东来说,机器翻译的工作经验使他相比于其他的语言学研究者而言具备了一种独特的视角,这种视角更加全面、更加理性,这也使得他的研究工作在语言学界受到了更加广泛的关注。詹卫东于1999年博士毕业,他的博士论文“面向中文信息处理的现代汉语短语结构规则研究”就是根据他在机器翻译中的工作总结提炼形成的,这篇论文获得了2001年全国百篇优秀博士论文奖。现在詹卫东已经是北大中文系应用语言学方面的负责人,而且担任了北大计算语言学研究所的副所长。

对于当年开发的这套基于规则的机器翻译系统,我现在想起来还是比较满意的。这个系统最大的优点在于提供了一套具有强大的翻译知识表达能力的规则描述语言。通常,基于规则的机器翻译系统最大的问题就在于词典和规则库的调试。一般情况下,没有经过数十乃至数百人月的调试,规则数目没有数千条以上,系统很难达到初步可用的水平。而我们的系统除了在词典开发阶段招聘了一些临时人员以外,一般只有两三个人进行词典和规则库的开发,真正进入调试阶段只有三四个月的时间,调试了四千个左右的汉语句子,就在863评测中取得了较好的成绩。这一方面得力于詹卫东博士深厚的汉语语言学功底,为我们的规则系统打下了良好的基础,另一方面,也确实是因为我们定义的规则描述语言非常强大,可以比较清晰准确地描述各种类型和各种层次的语言知识,为詹卫东这样的语言专家提供了得心应手的工具。詹卫东博士对这套规则描述语言使用得非常顺手,以至于直接用在了他的语言研究工作中。在他的博士论文以及其他一些论文中,都直接采用这套规则描述语言。而且,后来由于我转到了统计机器翻译方法,原来的系统已经弃之不用了。但詹卫东博士对这个系统仍然不忍放弃,我就把系统的全部源代码给了他。他把其中的汉语分析部分独立出来,后来,他又带了一个学生,在我的帮助下,把原来的规则描述语言进一步完善,主要是增加了一些内嵌的函数,并增加了主观评分机制,使得规则的描述能力更加强大。詹卫东博士把这套句法分析器和他后来开发的句法树库管理工具结合起来,构成了一个完整的汉语句法知识管理平台,他至今仍在使用。其中的汉语句法分析器在面对真实语料的时候正确率能够达到60%以上,这对于一个基于规则的系统来说是非常不容易做到的。有趣的是,詹卫东作为一个语言学家,为了开发这套工具,自学起了C++语言,到后来自己已经成了半个编程高手了,程序中的很多问题他都亲自上阵解决,当然也免不了有一段时间经常就一些比较难解决的问题“骚扰”我。由此也可见詹卫东的勤奋与钻研精神。对这套工具,我们一直希望把文档好好整理出来,将有关成果发表成论文,并将这套工具公开出来提供给其他语言学研究人员使用。到现在为止他可能觉得一直还不完善,所以还没有这样做。但我想这是迟早的事情。

除此之外,我们这个机器翻译系统还产生了一些有意义的结果。我们开发的机器翻译词典的语义部分,采用了前面提到的基于配价的描述模式。虽然我们在词典的语义分类体系设计和词典开发的质量方面都做得非常粗糙,但这种思想还是很先进的。当时组织这部词典开发的北大教师王惠发表的一篇介绍这部语义词典的论文就有很高的引用率。这种基于配价的语义词典设计思想明显不同于自然语言处理界常见的语义词典(如同义词词林、Hownet、Wordnet)的组织形式,比较适合于机器翻译系统的使用(目前看来,这种设计思想有点类似于Fillmore设计的 FrameNet的思想)。俞老师对我们这套词典的设计思想非常欣赏,后来北大计算语言所和北大中文系合作在这种设计框架下完成了一部新的《现代汉语语义词典》。

另外,我们还跟俞士汶老师签署了一份协议,授权北大计算语言所帮我们转让这个机器翻译系统的成果,包括其中的软件和词典等等。由于俞士汶老师开发的汉语语法信息词典影响非常之大,全世界开展汉语自然语言处理研究的几乎所有著名的大学和研究机构都陆续跟俞老师谈判转让了这部词典的使用权。在谈判的过程中,俞老师也顺便跟这些机构推荐转让我们机器翻译系统的成果,几年下来,竟然也收获颇丰,转让次数估计有七八次吧,转让金额总数也有近百万元人民币,其中一半左右分到了计算所。我记得还有一份软件还免费转让给了香港中文大学做教学用。


转自:http://mtgroup.ict.ac.cn/~liuqun/research/experience.htm#_Toc146986889

个人工具
工具箱