刘群:计算所与北大往事回顾五

取自 自然语言处理百科

跳转到: 导航, 搜索
  • 在软件室

计算所的新气象

李国杰担任所长以后,计算所的面貌发生了很大的变化,各方面都开始显现出一种蒸蒸日上的局面。在这种大的环境下面工作,人的精神面貌都一下子好了起来。

我所在的软件研究室也是一个非常有活力的研究团体。这里承担了很多大型的国家项目,人才济济,研究氛围非常好,学生们的思想也很活跃,大家工作也都特别努力。室主任白硕和后来接任的程学旗知识面都非常广泛,对前沿的学术动态也都很了解。在这种环境下,我的研究工作也取得了一些新的进展。

研究工作进展

2000在很多方面对我来说都是一个新的开始。我不仅仅是开始了博士阶段的学习,开始进入软件室这样一个新的环境,开始承担了机器翻译研究的新课题,而且开始做爸爸了。可以想象得到我当时的手忙脚乱。

这时候我一直在考虑的一件事情就是,我们的机器翻译研究下一步向什么方向去。按理说,如果要提高现有的基于规则的机器翻译系统性能,应该找人用大量各种各样的句子进行调试,改进词典和规则库。但说老实话,我很不喜欢这种模式。因为凡是调试过机器翻译规则的人都知道,这是一件极其痛苦的事情。有点像计算机编程时的Debug,但不同之处是,机器翻译规则的调试似乎是一个永远没有尽头的工作,我们经常是按下葫芦起来瓢(所谓翘翘板现象),这边的句子调好,但原来调好的一些句子又出错了。虽然总体上说,系统的性能在不断改进,但这种改进非常之慢,以至于这对于调试者来说,这是一件非常没有成就感的事情。我自己就很不喜欢做这种事情,同样也不希望让别人去做这种事情。所以我已经下决心抛弃这种大规模调试规则的方法了,而是希望从算法角度对机器翻译系统的性能加以改进。但当时,我还看不清有什么方法能在本质上超越规则方法,当时主要的设想就是从以下几个方面对机器翻译系统加以改进:

1、改进原有的汉语分词程序和汉语句法分析程序;

2、扩大词典规模;

3、建立一个短语库;

4、构造大规模双语句子对齐语料库;

5、构造小规模双语组块对齐语料库,试图从中自动抽取规则;

6、引入基于实例的机器翻译引擎;

7、采用多引擎方法,将基于实例的引擎和原有基于规则的系统以及其他一些技术结合起来,提高系统的综合水平。

为了尽快推进项目的进展,在项目的初期,我想把我在计算所习惯的项目管理方法应用到这个项目中,也就是制定比较详细的进度计划,每周开会讨论了解督促进度。不过实践证明这种做法在这个项目中行不通,北大和清华的老师和学生都不能适应这种做法。我只好放弃了这种做法,还是大家分头开发,最后集成。

经过一段时间的讨论和磨合,我们三个单位的分工逐渐清晰,清华主要负责提供一个汉语分词模块和一个汉英命名实体的翻译模块,北大主要负责资源的开发,包括双语词典的扩充、语义词典的扩充和双语语料库的开发,以及完成一个基于实例的翻译引擎。计算所(主要是我本人)主要负责多引擎方法的设计和系统的总体集成。实际上,对于北大和清华的研究开发工作,除了开始阶段我试图统一进行管理那一阶段,后来我就很少直接介入了,只是把他们开发的各种词典、语料库和工具集成到了我们最后的系统中。

当时,计算所的开发人员主要是我自己,北大投入的人较多,包括詹卫东(语料库和词典)、常宝宝(基于实例翻译、语料库)、孙斌(分词)、王惠(语义词典)、陈玉忠(组块对齐的语料库)、吴云芳(双语短语库)等人,还有一些短暂参加但很快就退出了,这里就不一一列出。清华大学除了带队的周强外,还有两个硕士生(负责汉语的词语切分和词性标注模块和命名实体的翻译模块)。这时候周强已经是清华大学的博士后了。

后来,在计算所我又有了几个学生,也有一些员工参加了我这个组的一些工作。到2003年我离开软件室为止,陆续在我这个组工作过的人包括我自己的学生王长胜(他是中科院研究生院的学生,找到我做他的导师)、李继峰、邹纲、邓丹,程学旗的学生张华平、白硕的学生张浩和李丙辰(后来根据他的个人兴趣转成了徐志伟副所长的学生),客座员工张奕滔、张彤,客座研究生俞宏魁,员工周立新,另外员工黄雄和梁焰也少量参与这个项目的一些工作。

在软件室这几年(2000-2003),实际上也就是我在北大在职攻读博士学位(1999-2004)的主要时间。刚开始,对于机器翻译如何做,我的思路实际上并不很清晰,但我对机器翻译的信念却一直不减,在跟室主任程学旗的多次谈话中我都跟他表达了我这种信念。我也要感谢软件室当时并没有给我安排其他工程性的项目工作,让我有精力在机器翻译的各个方面做了很多的探索,虽然当时这种探索并不很成功。


转自:http://mtgroup.ict.ac.cn/~liuqun/research/experience.htm#_Toc146986889

个人工具
工具箱