自然语言理解系统
取自 自然语言处理百科
自然语言理解系统的发展可以分为第一代系统和第二代系统两个阶段。第一代系统建立在对词类和词序分析的基础之上,分析中经常使用统计方法;第二代系统则开始引进语义甚至语用和语境的因素,几乎完全抛开了统计技术。
第一代自然语言理解系统又可分为四种类型:
(1)特殊格式系统 早期的自然语言理解系统大多数是特殊格式系统,根据人机对话内容的特点,采用特殊的格式来进行人机对话。1963年,林德赛(R.Lindsay)在美国卡内基技术学院用IPL-V表处理语言设计了SAD-SAM系统,就采用了特殊格式来进行关于亲属关系方面的人机对话,系统内建立了一个关于亲属关系的数据库,可接收关于亲属关系方面的问题的英语句子提问,用英语作出回答。1968年,波布洛(D.Bobrow)在美国麻省理工学院设计了STUDENT系统,这个系统把高中代数应用题中的英语句子归纳为一些基本模式,由计算机来理解这些应用题中的英语句子,列出方程求解,并给出答案。六十年代初期,格林(B.Green)在美国林肯实验室建立了BASEBALL系统,也使用IPL-V表处理语言,系统的数据库中存贮了关于美国1959年联邦棒球赛得分记录的数据,可回答有关棒球赛的一些问题。该系统的句法分析能力较差,输入句子十分简单,没有连接词,也没有比较级形式的形容词和副词,主要靠一部机器词典来进行单词的识别,使用了14个词类范畴,所有的问题都采用一种特殊的规范表达式回答。
(2)以文本为基础的系统 某些研究者不满意在特殊格式系统中的种种格式限制,因为就一个专门领域来说,最方便的还是使用不受特殊格式结构限制的系统来进行人机对话,这就出现了以文本为基础的系统,1966年西蒙(R.F.Simmons)、布尔格(J.F. Burger)和龙格(R.E. Long)设计的PROTOSYNTHEX-I系统,就是以文本信息的存贮和检索方式工作的。
(3)有限逻辑系统 有限逻辑系统进一步改进了以文本为基础的系统。在这种系统中,自然语言的句子以某种更加形式化的记号来替代,这些记号自成一个有限逻辑系统,可以进行某些推理。1968年,拉菲尔(B.Raphael)在美国麻省理工学院用LI SP语言建立了SIR系统,针对英语提出了24个匹配模式,把输入的英语句子与这些模式相匹配,从而识别输入句子的结构,在从存贮知识的数据库到回答问题的过程中,可以处理人们对话中常用的一些概念,如集合的包含关系、空间关系等等,并可进行简单逻辑推理,机器并能在对话中进行学习,记住已学过的知识,从事一些初步的智能活动。1965年,斯莱格勒(J.R. Slagle)建立了DEDUCOM系统,可在情报检索中进行演绎推理。1966年,桑普逊(F.B.Thompson)建立了DEACON系统,通过英语来管理一个虚构的军用数据库,设计中使用了环结构和近似英语的概念来进行推理。1968年,凯罗格(C.Kellog)在IBM360/67计算机上,建立了CONVERSE系统,该系统能根据关于美国120个城市的1000个事实的文件来进行推理。
(4)一般演绎系统 一般演绎系统使用某些标准数学符号(如谓词演算符号)来表达信息。逻辑学家们在定理证明工作上取得的全部成就,就可以用来作为建立有效的演绎系统的根据,从而能够把任何一个问题用定理证明的方式表达出来,并实际地演绎出所需要的信息,用自然语言作出回答。一般演绎系统可以表达那些在有限逻辑系统中不容易表达出来的复杂信息,从而进一步提高了自然语言理解系统的能力。1968-1969年,格林和拉菲尔建立的的QA2,QA3系统,采用谓词演算的方式和格式化的数据(formated data)来进行演绎推理,解答问题,并用英语作出回答,这是一般演绎系统的典型代表。
1970年以来,出现了一定数量的第二代自然语言理解系统,这些系统绝大多数是程序演绎系统,大量地进行语义、语境以至语用的分析。其中比较有名的系统是LUNAR 系统、SHRDLU系统、MARGIE系统、SAM系统、PAM系统。
LUNAR系统是伍兹(W.Woods)于1972年设计的一个自然语言情报检索系统。这个系统采用形式提问语言(formal query language)来表示所提问的语义,从而对提问的句子作出语义解释,最后把形式提问语言执行于数据库,产生出对问题的回答。
SHRDLU 系统是维诺格拉德(T.Winograd)于1972年在美国麻省理工学院建立了一个用自然语言指挥机器人动作的系统。该系统把句法分析、语义分析、逻辑推理结合起来,大大地增强了系统在语言分析方面的功能。该系统对话的对象是一个具有简单的 "手"和"眼"的玩具机器人,它可以操作放在桌子上的具有不同颜色、尺寸和形状的玩具积木,如立方体、棱锥体、盒子等,机器人能够根据操作人员的命令把这些积木捡起来,移动它们去搭成新的积木结构,在人机对话过程中,操作人员能获得他发给机器人的各种视觉反馈,实时地观察机器人理解语言、执行命令的情况。在电视屏幕上还可以显示出这个机器人的模拟形象以及它同一个真正的活人在电传机上自由地用英语对话的生动情景。
MARGIE系统是杉克(R.Schank)于1975年在美国斯袒福人工智能实验室研制出来的。该系统的目的在于提供一个自然语言理解的直观模型。系统首先把英语句子转换为概念依存表达式,然后根据系统中有关信息进行推理,从概念依存表达式中推演出大量的事实。由于人们在理解句子时,总要牵涉到比句子的外部表达多得多的内容,因此,该系统的推理有16种类型,如原因、效应、说明、功能等等,最后,把推理的结果转换成英语输出。
SAM系统是阿贝尔森(R.Abelson)于1975年在美国耶鲁大学建立的。这个系统采用"脚本"(script)的办法来理解自然语言写的故事。所谓脚本,就是用来描述人们活动(如上饭馆、看病)的一种标准化的事件系列。
PAM 系统是威林斯基(R.Wilensky)于1978年在美国耶鲁大学建立的另一个理解故事的系统。PAM系统也能解释故事情节,回答问题,进行推论,作出摘要。它除了 "脚本"中的事件序列之外,还提出了"计划"(plan)作为理解故事的基础。所谓" 计划",就是故事中的人物为实现其目的所要采取的手段。如果要通过"计划"来理解故事,就要找出人物的目的以及为完成这个目的所采取的行动。系统中设有一个"计划库"(plan box),存贮着有关各种目的的信息以及各种手段的信息。这样,在理解故事时,只要求出故事中有关情节与计划库中存贮的信息相重合的部分,就可以理解到这个故事的目的是什么。当把一个一个的故事情节与脚本匹配出现障碍时,由于"计划库"中可提供关于一般目的的信息,就不致造成故事理解的失败。例如,营救一个被暴徒抢走的人,在"营救"这个总目的项下列若干个子目的,包括到达暴徒的巢穴以及杀死暴徒的各种方法,就可以预期下一步的行为。同时能根据主题来推论目的。例如,输入故事:"约翰爱玛丽。玛丽被暴徒抢走了。"PAM 系统即可预期约翰要采取行动营救玛丽。故事中虽然没有这样的内容, 但是,根据计划库中的"爱情主题",可以推出 "约翰要采取行动营救玛丽"的情节。
上述的系统都是书面的自然语言理解系统,输入输出都是用书面文字。口头的自然语言理解系统,还牵涉到语音识别、语音合成等复杂的技术,显然是更加困难的课题,口头自然语言理解系统的研究近年来也有进展。
编者注:本篇由《自然语言理解技术及其应用探讨》的部分内容改编。

