COLING 2008会议介绍

取自 自然语言处理百科

跳转到: 导航, 搜索

  国际计算语言学大会(International Conference on Computational Linguistics,COLING)是计算语言学领域重要的国际会议之一,同时也是该领域关注方向最全面的国际会议。该会议每两年举办一次,第22届COLING会议于2008年8月18~22日在英国第二大城市曼彻斯特成功举行。这也是该会议自1965年创办以来第一次在英国召开。与该会联合召开的还有学术会议CoNLL-2O08、两个专题讲座(Tutoria1)以及9个专题研讨会(Workshop)。

  这次COLING主会共收到论文投稿6O0篇,其中,录用为口头报告的论文有145篇,占24.2%,录用为张贴论文的有35篇,占5.8%。下面以口头报告论文为例,介绍各子领域论文的分布情况。(图略)

  从上表的统计数据我们可以看出,信息抽取、信息检索、句法分析、机器翻译、词法和语义是当前的研究热点。非常惊讶的是,纯粹关于语音的文章只有一篇,当然提交的论文也寥寥无几。对此会议的程序委员会主席解释了如下两点原因:一是认为这是人类语言技术不断进步与分化的结果,二可能是文章相对地集中于国际著名的语音学会议。

  有点出人意料的是,信息抽取、信息检索及问答的文章数量占据了绝对优势的比重,约为录用论文总数的四分之一,而且让人感觉到这种增长趋势还将继续。这也许正是自然规律的体现:研究指导应用,需求促进研究。这次会议体现出该领域研究的重点还是命名实体识别,如论文:[Pawel Mazur]、[Yuhang Yang]、[Florian Laws];问答系统,如论文:[stefan Riezler]、[suzan Verherne]、[Fangtao Laws];事件和关系抽取,如论文:[Yutaka sasaki]、[Kim Luyckx]、[xiaofeng Yu]、[Longhua Qian]。同时,观点挖掘、情感发现和情感分类正在逐渐成为 新的研究热点,如论文:[Murthy Ganapathibhotla]、[Kevin Lerman]、[Vese1in stoyanov]、[Hiroshi Kanayama]、[Kevin Lerman]等。

  机器翻译仍然是当前的一个研究热点,而且不出任何意料的是,所有被录用的20篇论文都是关于统计机器翻译的。其中,仅有一篇论文([Nicola ueffing])提到规则方法,讲的是如何将基于规则的翻译系统与统计机器翻译的系统融合,以提高统计机器翻译系统的性能。其他文章涉及了统计机器翻译的诸多经典问题,如预处理方面有专为提高机器翻译性能而设计的中文分词方法[Jia Xu];参数训练方面有最小错误率训练算法[Robert C.Moore];重打分重排序方面有重新生成翻译假设提高翻译质量的方法[Boxing chen];改进算法方面有利用模式匹配解决超大规模的统计机器翻译方法[Adam Lopez]和利用最大熵方法改进层次短语模型规则选取的算法[Zhongjun He]。其中,调序问题仍是一个研究重点,我们考察这些文章发现,几乎所有这些调序方法都着眼于如何巧妙地将语言学知识融入调序模型,如[Jak0b E1ming]、[simon zwarts]、[Jiajun zhang]、[Deyi Xiong]。同时,机器翻译的一些新的问题也有所涉及,例如,系统融合方法的研究[Necip Fazil Ayan]、机器翻译中的领域适应性研究[Hua wu]等。其他论文关注的话题包括:文法学习和规则抽取[Min Zhang]、[Hao zhang]、机器翻译系统的自动评价方法[Ming Zhou]、利用统计机器翻译的中文对联自动生成算法[Long Jiang]。综合来看,具有突破性的翻译模型或算法在本次会 议上并没有出现。不过,一篇综述性的文章比较不错,那就是Google的研究人员Andreas Zollmann等所做的工作。他们系统地深层次地比较了基于短语的(phrase-based)、层次的(hierarchica1)和句法的(syntax—augment)这三类不同的统计机器翻译模型。

  词法、句法和语义分析也是此次大会的一个重点,如分词、词性标注、句法分析新方法的研究(其中依存分析仍是一个热点)、语义角色标注等,仍然受到很大的关注。

  另外,会议上的两个特邀报告也很有意思,一个是E1izabeth Shriberg 的“Cha1lenges to Using Prosody in Automatic Language Processing”,另一个是John Shawe TayIor的“Machine Learning for Multilingual Analysis”。前者突出了语言学的重要性,后者强调了机器学习的有效性。这也许正说明了在研究计算语言学时,语言学知识与机器学习等数学方法都是必不可少的。这次会议的另一个亮点是,COLING-2OO8在其历史上第一次颁发了最佳论文奖,该奖由来自美国斯坦福大学的Bill MacCartney和Christopher Manning获得,他们的论文题目是“Modeling Semantic Containment and Exc1usion in Natural Language Inference"。

  根据会议组织者的报告,这次出席C0LING会议的人数总共是5O0人。下表列出了参加人数10人以上的国家。(表略)

  虽然现在还无法得知每个国家的论文投稿的数量以及论文的录取率,但会议参加人数的分布也基本上反映了论文比例的分布。从上述数据可以看出,美国仍然是绝对的论文强国,但让我们欣慰的是,中国的自然语言处理研究队伍正在不断地壮大。据粗略统计,在145篇口头报告论文中,第一作者是中文姓名的文章(包括在海外学习和工作的中国学者)有31篇,约占21.4%。这也正说明了中国学者在这一领域的影响力正在逐渐扩大。

  另外,会议也按惯例组织了相关的活动,如招待餐会、在曼城市政厅举行的市长亲自出席的正式宴会以及全天的参观旅游。总起来说,会议是成功的。令人期盼的2O1O年COLING大会将首次在中国北京召开,我们相信下届COLING大会必将是一场盛大、成功的大会。


转自:《中文信息学部》2008年第6期,作者为张家俊和宗成庆老师。

个人工具
工具箱