刘群:计算所与北大往事回顾六

取自 自然语言处理百科

跳转到: 导航, 搜索

我在计算所的工作并没有局限于只做多引擎方法和系统集成,而是跟小组的其它成员一起,几乎尝试了所有我能想到的各种方法,试图提高机器翻译系统的性能。虽然系统比原先简单的基于规则的系统有一定的提高,但总体效果并不显著。这一段时间做的很多事情有些不了了之,但也有很多工作取得了很好的效果,为我今后的工作奠定了重要的基础。下面我分别介绍这些工作。

1、双语词典

早期基于规则的机器翻译系统一个重大缺陷就是词典规模太小。于是我们就从网上收集了数十部各种形式的电子词典,投入人力进行数据整理和归一化,得到了一部相当规模的电子词典(含大约42万词条)。这部分工作李丙辰开了一个头,后来由于个人兴趣原因,他很快就转到了徐志伟所长的网格组去了。不过这部分工作我们一直延续下来了,并把这部词典以数据库形式放在了网上供大家免费查询,竟然非常受欢迎。在没有对这部词典做任何宣传的情况下,现在每天的访问量都在1000次以上,很多人还经常给我发信跟我探讨这部词典的一些问题。我们现在已经把这部词典扩充到了数百万词条(没有放到网上),不过由于我们后来参加的机器翻译评测主要是参加受限语料的评测,这部词典并没有直接用上。不过我想这是一个非常宝贵的资源,总有发挥作用的时候。

2、双语语料库

早期我们的基于规则的系统是完全不使用语料库的。自从我决定不再采用人工调试规则的方法以后,从语料库中学习翻译知识是必然的途径。虽然具体采用哪一种策略还不明了,但是语料库总是不可缺少的。虽然按照分工这一块工作由北大来做,但我想语料库总是多多益善的,所以我在计算所也组织课题组成员收集了一批语料库,这项工作当时由梁焰等人负责,总共收集了大约18万句对。后来,我到数字化室以后,这些语料库用在了我们承担的一个973项目的子课题中,目前已经可以通过ChineseLDC进行转让,也可以在我们课题组的网站上在线查询。我们后来的机器翻译和词语对齐等工作都使用了这个语料库。后来我们组织的863评测,也把这个语料库作为训练数据的一部分。但我们参加NIST评测并没有使用这个语料库,因为我们参加的是限定训练语料库的项目,只能使用NIST指定的语料库。

3、参加NIST评测

2002年,我了解到美国NIST要进行一次机器翻译评测,测试的语言主要是汉语到英语和阿拉伯语到英语的翻译。由于我一直在做汉英机器翻译,而且在1999年的863评测中也取得了不错的成绩。汉语又是我们的母语,应该说我们还是有一定优势的,所以我积极投入了汉英机器翻译评测。由于时间紧迫,我无法对原有的程序做大的改进,只是把我们收集的一部大规模汉英词典加入了系统中。但结果却让我大失所望。由于我使用的是规则方法,完全没有使用评测提供的任何语料和工具,而是使用了自己的词典,所以我参加的是不受限语料的项目。结果在不受限语料项目的四个参评系统中,我们的结果排在最后一名,即使加上受限语料项目的六个参评系统,我们也只能排在倒数第二。这个结果让我非常沮丧,但反过来,也让我看清楚了,与传统的规则方法相比,统计机器翻译方法的优势已经非常明显,机器翻译的研究转向统计方法将是一个不可避免的趋势。这件事使我最终下定决心转到了统计方法上来。对我来说,虽然参评结果很差是一件坏事,但从另一个方面说,这件事让我认清了今后工作的方向,让我看到了机器翻译研究的希望所在,对我来说终究是好处多于坏处。

4、中文自然语言处理开放平台

从事自然语言处理和机器翻译研究这么多年,我有一个很深的感触,就是这个领域门槛较高。从事这个领域的研究,如果没有一定的基础和积累,没有一个合适的研究环境,是很难入门的。虽然很多研究者对中文的处理都非常感兴趣,但苦于缺乏基础,不得其门而入。因此,我一直很想为这些人做一些事情,以便降低这个研究领域的门槛,让更多的研究者能够方便地进入这个领域,从事这方面的研究工作。恰逢当时接触了很多开放源代码运动的资料,于是我就萌发了一个想法,就是借鉴开放源代码的形式,做一个公益性的网站,专门提供免费的中文自然语言处理方面的资料,不仅仅有源代码,还可以有词典、语料库、论文、资料等等。在不侵犯别人知识产权的情况下,用户可以上载自己手里的资源,也可以下载别人的资源。我想这一定会受到大家广泛的欢迎的,对我们自己的学生上手进行研究工作也是非常有益的。说干就干,我很快把我的想法写成了计划,跟软件室负责人程学旗和白硕讨论并得到初步认可后,我们很快就申请了域名(nlp.org.cn),完成了设计,编写了相关文档(包括我们自己定义的开放资源授权协议),并请张奕滔开始实现这个系统。2002年8月,在北京大学召开了第一次学生计算语言学研讨会,当时我作为在职博士生担任会议的程序委员会主席,在一篇论文中我介绍了这个想法,引起了很多人的注意。不久后我们的网站正式定名为“中文自然语言处理开放平台”(以下简称开放平台),就正式运行了。作为启动的第一批资源,我们把我们刚开发成功并获得973评测第一名的汉语分词系统ICTCLAS(后面还会有介绍)作为开放源代码的资源放了上去,不久我们又整理了一批语料库、词典、开源的工具,后来詹卫东博士也贡献了他读博士期间收集的一大批资料,我们的网站就红红火火地开张了。我当时给科学时报写了一篇稿子,他们很快采用并报道了,结果这篇稿子很快被很多报纸转载,产生了很大的影响。现在这个网站每天下载的资源数量大约为200-500份,注册用户超过8000人。作为一个专业的学术网站,这无疑是很少见的。我们当时希望,在google等搜索引擎上输入“自然语言处理”六个字,我们的网站能很快就能找到。结果这个目标很快就达到了。现在,在任何一个主流的搜索引擎上输入这几个字,我们的网站都牢牢占据了第一位。


转自:http://mtgroup.ict.ac.cn/~liuqun/research/experience.htm#_Toc146986889

个人工具
工具箱