自然语言理解的新进展二

取自 自然语言处理百科

跳转到: 导航, 搜索

  3 HNC理论在中文信息处理技术上的进展

  HNC理论是面向整个自然语言理解的理论框架,但它首先关注的目标是中文信息处理。中文信息处理包括汉字信息处理和汉语理解。国家语委主任许嘉璐教授指出:“汉语理解是中文信息处理的高级价段。在这一阶段的大规模真实文本处理中,不但需要计算机的硬件、软件研究成果,而且需要汉语的研究成果。语言研究和计算机技术一结合,必然引起语言学的一场革命。”从一定意义上说,汉语研究是汉语理解的前提和基础。几千年来,汉语语言学的传统研究主要集中在“字” 的形、音、义上,相应建立了文字学、音韵学、训诂学。从1898年马建忠的《马氏文通》出版开始,汉语语法学出现以西方语言学理论研究汉语的景况,并成为汉语语法研究的主流派。应该说,100年来的汉语语法研究是有成绩的。但随着汉语研究的不断深入,愈来愈多的学者认识到,西方语言学理论总的来说是在形态语言的基础上建立起来的,汉语是无形态语言,用形态语言的理论去描写无形态的汉语,这显然是不对路的。不少学者都想另辟蹊径而又找不到切实可行的道路。这种状况给中文信息处理设置了不可逾越的障碍。HNC理论开辟了以语义表达为基础的自然语言理解的新路子,因而避开了当前中文信息处理所面临的一系列难题,诸如分词问题、词性标注问题、词的兼类问题、义项标注问题、句法分析问题、句子述语动词的识别问题,等等。由此可见,HNC理论在中文信息处理技术上获得了突破性的进展。

  4 HNC理论的应用潜力和前景

  HNC理论走向应用的第一步是语义块感知和句类辨识。语义块感知就是找出一个句子中的各个语义块,句类辨识就是通过感知得到一个句子的E语义块(述语动词),进而确定这个句子所属的句类。计算机能否感知到语义块关系到HNC能否指导实践、是否有应用价值的问题,几年来的工程实践已对此作出了肯定的回答。感知到语义块、辨识出句类以后,就可以运用句类知识对句子进行理解处理,这称为句类分析。句类分析是对大脑语言感知过程的初步模拟。在模糊消解方面,理论上,句类分析应能接近甚至超过常人的水准,这一点已在汉语无声调拼音——汉字转换方面得到了验证。这使计算机向真正的理解迈出了坚实的第一步。在这第一步的基础上,HNC理论设计了由9个模块组成的自然语言处理系统的基本框架。目前,部分模块已在计算机上得到实现。

  HNC理论的创立为我国开创自己的语言信息产业创造了良机。有人说,中国当前的信息产业面临的是八国联军入侵的局势,外国有关的大公司早已看到了中文信息处理的巨大市场,他们在向中国进军,凭着雄厚的经济实力,大肆“收买”中国的人才、技术和成果,如此长久下去,中国人哪还有自己的信息产业。不久前,美国的IBM公司推出了汉语语音输入系统,他们有一个不错的语音模型,但是,他们还没有一个好的语言模型。HNC建立的语言表述和处理模型目前是无人可比的,它应该成为中国人的财富,应该以它为基础开创中国的信息产业。

  令人可喜的是,国家计委已把“基于HNC理论的研究和开发”列入国家“九五”重点项目。在中国工程院院士陈力为教授等学术界前辈的推动下,为实现 HNC理论,近一年来组成了“HNC联合攻关队伍”。这一联合攻关队伍包括中国科学院声学研究所、中国人民大学对外语言文化学院和北京语言文化大学语言信息处理研究所等三家单位。他们在资金严重短缺的境况下紧张地工作,取得了显著的成绩。“HNC联合攻关队伍”在过去的一年里取得的一个重大成绩是,使 HNC理论体系的完善从个人思考模式转向集体创立模式,这表明HNC理论的发展和应用存在着巨大的潜力和广阔的前景。


编者注:本篇是苗传江老师简评黄曾阳先生创立的HNC理论的文章,文发表于《科技导报》1998年第3期。虽然过去了10多年,但是对于了解HNC理论还是很有帮助。

个人工具
工具箱