ACL2007会议观感
取自 自然语言处理百科
每年一度的计算语言学学会年会(Annual Meeting ofACL)是计算语言学界的盛会,也是计算语言学和自然语言处理领域最有影响的学术会议,ACL每年发表的论文都反映了这一领域的最新研究进展和学术动向,受到研究工作者的广泛重视。今年的ACL2007是ACL的第45届年会,在美丽而又浪漫的东欧古城——捷克首都布拉格召开,同时召开的有EMNLP -CoNLL 2007和IWPT 2007等2个学术会议(Conference)、15个学术研讨会(Workshop)以及5个专题讲座(Tutorial)。会期从6月23日开始一直持续到6月30日结束,根据ACL2007网站公布的名单,参加会议的人数达到了创纪录的1095人,可谓盛况空前。ACL主会议于25~27日召开,其他各个会议、研讨会和专题讲座都是安排在ACL主会议之外的时间段并行进行的。其中,EMNLP于28~30日召开,持续时间最长。其他研讨会或者专题讲座持续时间半天到两天不等。
今年的ACL会议上共收到论文588篇,录用131篇,录用率为22.3%。各领域论文分布如下:图略。
以上的领域划分比较粗,实际上,会议的Session划分更细一些,包括:机器翻译、词义消歧、句法分析、语言资源、语法、机器学习方法、语音与形态、语义角色标记、生成、多语言、多模态、情感、复述与文本推理、篇章与对话、语言模型、同指、文摘、语义关系、问答、序列处理、词典和词汇语义、文本挖掘与检索。每个Session通常有4篇论文。我们可以看到,其中机器翻译是目前最大的研究热点,安排的Session达4.5个(其中一个 Session是和Mukilingualty合并举行的)。而在机器翻译中,统计机器翻译研究又占据了主导地位,纯粹基于规则或者基于实例方法的论文几乎没有。统计机器翻译的文章全面开花,一些传统的基于语言知识的规则方法也开始融入到统计机器翻译研究中,很多论文都试图利用句法结构、句法标记、功能词、词义排歧来改善统计机器翻译的效果。另外,统计机器翻译的一些经典问题,如词语对齐、自动评价、词序调整,依然受到重视。其他一些统计机器翻译研究论文涉及的话题包括解码算法、音译、翻译预处理、系统融合、多语言等。不过,总体上看,这次会议上统计机器翻译论文并没有出现突破性的研究成果。另外,深层次的句法语义分析,也仍然是ACL关心的主要话题,论文数量占了相当的比例,而且,今年的EMNLP-CoNLL重点讨论了依存分析技术,ACL主会议上有专门的Session讨论语义角色标注,另外有一个SemEval Workshop开展了语义分析方面的评测。除此之外,其他几个比较热门的研究领域包括语音与形态、篇章与对话、多语言、多模态、语言模型、机器学习方法、情感等,这些领域分别有两个或两个以上的Session。
这次会议收到的论文来自45个国家,其中亚洲太平洋地区和欧洲各占35%,北美洲27%,中东2%,南美和非洲都不到1%。从被录用论文所占比例来看,北美最高,为46.6%,欧洲是31.3%,亚洲和太平洋地区为16.8%。一些主要的国家和地区论文录用情况如下:图略。
从中我们可以看到,研究实力最强的国家仍然是美国。不仅投稿数量最多,而且录用率也相当高。纯粹从录用率看,新加坡达到80%,是最高的,欧美国家的录用率普遍较高。中国大陆和日本投稿论文数量都很多,但录用率偏低。以中国大陆学者为第一作者的论文一共有6篇,作者单位分别是:微软亚洲研究院 (与哈尔滨工业大学合作)、东芝(中国)研究开发中心、北京大学、哈尔滨工业大学(与清华大学、微软亚洲研究院、新加坡国立大学合作)、中国科学院计算技术研究所、重庆大学(与微软亚洲研究院合作)。虽然来自中国大陆本土的论文并不多,不过,会上的中国学者并不少,很多来自世界各地的中国学者以海外研究者的身份发表了论文。从会议录用的论文列表上也可以看到,其中中文姓名的作者占据了相当的比例。在参会的人员中,根据我们自己的统计,来自中国大陆的学者有 20多位,而根据会议Newsletter公布的资料,来自中国大陆的学者有31位。海外华人学者人数更多,我们在会上就见到很多来自世界各大著名高校的中国学者。根据大会Newsletter公布的资料,所有参会人员中中文姓名的人数大约在110人左右。记得黄昌宁教授在1998年参加COLING- ACL会议回国后写的一篇介绍文章中还感慨会上很难见到中国学者的身影,如今这种状况已经完全改变。特别可喜的是,一些年轻的中国学者脱颖而出,相信假以时日,中国学者在这一领域的影响必将越来越大。
按照惯例,每次ACL会议都要颁发一个终身成就奖和一个最佳论文奖。本次会议的终身成就奖颁发给了来自Palo Alto Research Center(PARC)的学者Lauri Karttunen,而最佳论文奖颁发给了来自美国德克萨斯大学的一篇论文Learning Synchronous Grammars for Semantic Parsing withLambda Calculus,其第一作者Yuk Wah Wong也是一个华人学者。另外,会议还举办了丰富多彩的各种活动,包括一次招待餐会、一次正式宴会、一次音乐会和多次参观旅游,这些活动都是大家自愿参加,有些是收费的。布拉格是个非常美丽的历史名城,在古罗马时期曾经是欧洲第二大城市,位于波西米亚平原上,盛产水晶。会议召开的时候正值布拉格在举行音乐节活动,各种专场音乐会应接不暇,各种公开场合也有很多露天音乐会,以及一些中小学生的公开表演,让人感觉到浓浓的音乐氛围,体会到音乐已经深深扎根在这个民族的文化传统之中。
另外,除主会议外,同样值得关注的还有同期举行的卫星会议,其中比较重要的是EMNLP-CoNLL 2007。EMNLP(Conference on Empirical Methods in Natural Language Processing)每年召开一次,由ACL关于语言学数据和基于语料库方法的自然语言处理特别兴趣小组SIGDAT资助并主办。本次会议与CoNLL (Conference on Computational NaturalLanguage Learning)联合召开,程序委员会主席是约翰霍普金斯大学的Jason Eisner。EMNLP-CoNLL 2007今年共收到论文398篇,录用109篇(录用率为27%,其中66篇为大会报告论文,43篇为张贴论文),覆盖了机器翻译、问答、文本生成、文本摘要、语义、文档分析等多个研究领域。其中第一作者来自中国大陆学者的论文一共有9篇,作者单位分别是:东北大学(与微软亚洲研究院合作),东北大学(与美国南加州大学合作)、东芝(中国研究开发中心、南开大学(与微软亚洲研究院合作)、中国科学计算技术研究所、中国科学院自动化研究所、微软亚洲研究院、苏州大学(与新加坡12R研究所合作)、清华大学。
总体上,这次会议非常成功。本届ACL执行委员会主席Mark Steedman在会议组织的宴会上做了一个精彩报告,对计算语言学近年来的进展和发展趋势做了一个很好的总结。他说,在2006/2007年间。计算语言学团体变大变强了,最有力的证明就是我们已经有了高可读性、具有实际用途的基于统计方法的阿拉伯语到英语的机器翻译系统,其他一些语言的翻译和其他方面的应用也取得了很大的进展。计算语言学一个好的趋势是和语音研究团体的联系更加紧密了。但也有一个令人担心的现象,就是我们和语言学家变得疏远了。他表示,希望计算语言学能够像物理学一样赢得人们的尊敬。
物理学之所以重要的原因是:
Everything is made of particles,so Physics is very imDortant.
现在我们同样可以说:
The World-Wide-Web is made of Language,so Computational Linguistics is very important.
致谢:
感谢孙茂松、王海峰、赵军、车万翔给本文提出的修改意见。感谢王海峰给作者转发了ACL Newsletter No.6,使作者得以修正了原文中的一些数字。感谢《中文信息学报》编辑部将本文初稿转发给上述老师修改补充,使本文更加完美。
转自:《中文信息学报》2007年第5期,作者为计算所刘群老师和他的学生刘洋。

