刘群:计算所与北大往事回顾八

取自 自然语言处理百科

跳转到: 导航, 搜索

7、基于知网的词语相似度计算

基于知网的词语相似度计算研究是我的一项意外收获。2002年5月要在台湾召开第一届汉语词汇语义学研讨会,当时我的导师俞士汶教授作为国内召集人向大家征集论文摘要。我当时响应俞老师的号召,也投了一篇摘要,题目就是 “基于知网的语义相似度计算”。当时我并没有做这项研究,只是有了一个朦胧的想法。因为词语相似度计算是很多场合都需要用到的一项技术,包括基于实例的机器翻译也需要用到。而知网是一个内容丰富的语义知识库,但由于知网的结构比较复杂,将知网应用于实际的自然语言处理研究中的实例还不多见。因此我就有了这么一个想法,但当时并没有实现。加上这次会议为部分大陆的优秀论文提供了去台湾开会的资助,这对我也是很有吸引力的,所以我就提交了一份论文摘要,但也没有抱多大希望。没想到论文被录用了,而且还得到了资助。我只好花了一些时间把这篇摘要扩充成了完整的论文,为了用实验说明我这个算法的效果,我还开发了一个软件来实现这种算法。后来这篇论文又被推荐到台湾出版的Computational Linguistics and Chinese Language Processing杂志上发表(2005年8月),我也把我开发的软件的可执行程序在网上公开了。让我意外的是,这篇论文竟然引来了大量的关注,现在在Google Scholar上查这篇文章已经有39篇引用,是我的所有论文中引用率最高的一篇。知网的发明人董振东也非常欣赏这篇论文的工作,后来他在推出知网新版本的时候,也提供了一个词语相似度计算工具,这个工具就是根据我这篇论文的思想编写的。这真是无心插柳柳成荫的一个最好注解。我以后也没有再进行这方面的研究工作。这次会议的另一个收获就是让我有机会踏上了祖国宝岛台湾,除了在台北开会几天以外,我们还到台东的花莲太鲁阁一带旅游,饱览了台湾美景,让我至今难忘。

8、重复串识别和新词检测

汉语切词中,未定义词识别是一个最困难的问题。对于常见的人名、地名、机构名等命名实体,我们采用隐马尔科夫模型,已经能够较好地解决问题。但还有很多新词仍然无法识别。但我们可以注意到,新词往往在一篇文章中是反复出现的,利用这个特点,也许可以在一定程度上帮助进行新词语识别。另外,文章中的重复串其实不仅仅是词语,通常还可以是一些有意义的短语,这对于句法分析等其他工作也都是非常有意义的。基于这个想法,我开始在课题组内开展这方面的研究工作。客座员工张彤和硕士生邹纲陆续开展了这方面的研究工作,实验取得了很好的效果。后来我转到数字化室以后,以此为题和富士通研究开发中心开展了两期的合作研究工作,这两个项目分别由硕士生邹纲和崔世起承担,主要工作是把新词识别的研究扩展到了Internet上,从Internet上采集的大量网页并从中提取新词,实验非常成功。在我的建议下,崔世起还把这项工作扩充到了汉语缩略语的识别和还原,也取得了成功。富士通公司对这个项目很满意,邹纲毕业后就进入了富士通公司工作,而且还是进行这方面的研究。目前我们已经停止了这项研究,相关工作做成了一个网页,放到网上,每天自动从网上采集网页进行分析,自动形成每月的新词报表公布在网上。我不时还能得到有关这方面研究工作的一些反馈。

这段时间,我们还在计算机辅助翻译、基于实例的机器翻译、多引擎机器翻译、汉蒙机器翻译方面做了一些工作,这里就不一一介绍了。

除了上面的工作之外,我在软件室的时候,还有一小段时间参加了高文老师牵头的联合国UNL项目(实际上也是一个多国语言机器翻译项目),当时高文老师让我和史晓东负责。我做了一段时间,觉得这个项目本身设计非常糟糕,就退出了。史晓东不久也去了厦门大学。

2003年中旬,我正式从软件室转到李锦涛老师领导的数字化室工作。主要的原因是数字化室钱跃良老师和林守勋老师这时候承担了863大规模语言资源建设和863评测课题以及北京市奥运项目中的类似课题,由于我在自然语言处理领域长时间的积累,他们很希望我能参与这些项目的工作,而且也支持我继续从事机器翻译的研究。而我在软件室的工作由于长期定位不是很明确,而且我也短期内也很难申请到大的课题,因此我的工作处于了一种比较尴尬的地位,软件室也不太支持我继续在机器翻译方面开展研究。因此我下决心离开软件室来到了数字化室。

软件室的一些事情·跟李所长第二次接触

我在软件室总共呆了三年多时间。在这段时间,我跟李所长只有过一次接触,这也是我跟李所长的第二次直接接触。其实,进入软件室后,虽然我很长时间一直没有单独见过李所长,但我能感觉到,所里对我进行的机器翻译研究还是非常关心的。樊所长多次介绍不同的人到我这儿参观我的系统,并给我介绍一些合作机会。可惜我那时候的系统离实用还差得很远,一直也都没有把握住机会。

2001年面试硕士研究生的时候,我被告知跟李所长一起面试研究生。我那时候刚开始招研究生不久,报考我的研究生人数还非常少,而报李所长研究生的人数却非常多。我们见面后几乎没有谈论其他话题,直接开始就面试的问题沟通了一下,马上就开始面试了。面试了一个下午,李所长确定了他要的学生,我对报考我的那个学生不太满意,也在报考李所长的学生中挑选了两个学生,这两个学生就是刘洋和熊德意,是我到目前为止带过的最出色的两个学生,在我们现在的统计机器翻译课题组中,他们两个是最核心的骨干,一些人把他们两个人的名字连起来合称“洋洋得意”。由于最近他们两个人在ACL会议上发表了论文,他们的工作已经在国际统计机器翻译研究领域暂露头角,以至于这个研究领域的圈子里很多人都知道了“洋洋得意”这个名号。

这次见李老师,虽然我们没有讨论任何工作上的事情,但我至少知道李所长还在关注着我的工作。


转自:http://mtgroup.ict.ac.cn/~liuqun/research/experience.htm#_Toc146986889

个人工具
工具箱