自动摘要
取自 自然语言处理百科
目录 |
[编辑] 概述
自动摘要是计算机语言学领域的一个研究重点,自动摘要的研究和应用受到了计算机学、语言学、认知心理学等相关学科的广泛关注。
自动摘要是以计算机为工具,自动从原始文档中获取重要资讯的过程。它是计算机语言学和情报学共同关注的课题,其本质是信息的抽象和减缩。它被认为是计算机实现自然语言理解的重要标志之一。
自动摘要所要考虑的因素有摘要的准确率、盖全率、文件摘要压缩比(Compression Ratio)、摘要可读性、流畅性、用户焦点等,这些因素直接影响自动摘要结果的好坏。
[编辑] 分类
目前,由于自动摘要系统产生的摘要都具有指示性和(或)报道性的作用,所以我们依据自动摘要的特点,尝试从多个角度对自动摘要系统进行分类,这既是对自动摘要分类的一种总结,又是对构造自动摘要系统和思考自动摘要发展方向的参考和启示。
依据摘要产生方式分为自动生成摘要和自动摘录摘要,前者是经过自然语言处理所自动生成的语句;后者是原始文件的摘录(Extract),即直接由原文件中节录出语句与段落片段。
依据文档对象的数量分为单文档摘要和多文档摘要。前者提取代表文档的主要内容;后者则是把多篇探讨相关主题的文档融合在一起,提取相关此主题的内容,并过滤重复信息。
依据读者需求的不同分为一般性摘要和偏重摘要。前者为所有读者提供一般性的摘要;后者依据特定用户的需求(如询问用户感兴趣的主题)产生专属摘要。随着信息爆炸时代的来临,如何为用户产生特定需求的摘要已经愈来愈被看重。
依据是否借助语料库来看,自动摘要可分为基于语料库的摘要和普通摘要。前者需要有语料库,需要借助机器学习;后者则无需语料库,也不需要学习过程。
依据信息对象的承载方式不同分为文档自动摘要和多媒体资源自动摘要。前者的信息对象是文字内容,尽管文档格式可能不一致;后者的对象包括音频或者视频,它是新的研究分支,超出了本文的讨论范围,本文只讨论文本的自动摘要。
[编辑] 历史
自动摘要研究始于1958年,由美国IBM公司的Luhn开创了自动摘要研究的先河。接着,美国马里兰州大学的Edmundson、美国俄亥俄州立大学的Rush、英国Lancaster大学的Paice等选取字词的不同特征作为提取摘要的关键。这一阶段人们只是围绕文章字词层面进行特征提取,只是简单地依赖粗糙的统计数据和不同性质的特征的简单线性叠加。
随后,人们开始考虑文档的句法特征和语义特征。建立起以人工智能特别是计算语言学为基础的方法。美国耶鲁大学的Schank、意大利Udine大学的Fum等、美国GE研究开发中心的Rau等分别应用脚本分析、一阶谓词逻辑推理和框架等表示文档的结构和意义,从而分析和推理得到文档的摘要。
至此,自动摘要研究分为两大阵营:基于统计的机械摘要和基于意义的理解摘要。
除此之外,人们也在试图寻求其他的解决方法。特别是随着机器学习、认知心理学、语言学等领域不断涌现出新的成果,自动摘要研究也进入了一个多元化的新时代。美国Syracuse大学的Liddy提出仿人的方法 ,日本Toshiba公司的Kenji Ono等依据修辞结构研究自动摘要。苏联的E.F.skoroxod'ko依据语句关联网生成摘要,美国的Kupiec提出以基于语料库的方法来计算每个语句的权值 ,以色列Ben Gruion大学的Regina Barzilay依据词汇链进行摘要。日本北海道大学的Maeda依据句子语用功能提取摘要 。美国多伦多大学的Daniel Marcu采用修辞结构树的方法提取摘要。美国马塞诸塞州大学采用查询扩展的方法选取摘要。
在国内自动摘要的研究则起步较晚,直到1985年王兵才正式撰文介绍国外的自动摘要的研究情况。从20世纪80年代末,我国才先后有大学和研究机构开展研究,并取得了许多重要理论成果,实现了一批应用系统。
上海交通大学王永成教授从20世纪80年代末开始研究自动摘要,1997年研制了OA中文文献自动摘要系统。
80年代末,东北大学姚天顺教授和香港城市理工大学联合开展了面向中文的“全文自动摘要系统”的研究 。
90年代初中国科学院软件研究所的李小滨、徐越在北京大学马希文教授的指导下开发了EAAS(English Automatic Abstract System)系统。
哈尔滨工业大学王开铸教授分别于1992年、1994年、1997年和1998年研制了MATAS型军事领域摘要系统、HIT-863I型摘要系统、HIT-97I型英文摘要系统和HIT-863Ⅱ型摘要系统。
2003年,复旦大学吴立德教授研制了文本自动综述系统。
北京邮电大学的钟义信教授则先后实现了面向计算机病毒的Glance系统,面向新闻报道的News系统,和面向神经网络学习算法领域的Ladies系统。
[编辑] 方法
自动摘要方法如何分类一直是困扰研究者的一个重要问题。一个好的分类方法能帮助我们从更高的层次来看待自动摘要,不但能使我们更好地理解和总结前人的经验,而且能帮助我们更好地把握自动摘要未来发展的方向。
研究的初期,人们把研究重点放在字词的特征分析上,试图找出哪些特征可以表征出文档的主要内容,而这些特征又是如何表现文档的主要内容;接着,人们意识到单单只是对字词的特征分析不能有效地反应出文档的主要内容,人们开始考虑字词的词法特征、句子的句法特征和语义特性,试图找出一种合适的表征文档的结构框架和进行分析和推理的一组规则,再依据规则分析和推理得出文章的主要内容;但是这使得实现起来过于困难,也达不到人们预期的效果,所以人们开始找寻新的突破点。随着其他相关学科不断涌现出新的成果,人们开始把重点转向文档的篇章结构,试图弄清楚作者是如何把那些零散的语言片断组织成一篇文档的,而这些语言片断又是如何反应表达文档内容的。
因此将自动摘要方法视为三类:基于特征分析的方法、基于计算语言学的方法和基于篇章结构的方法。

