自然语言理解与搜索技术
取自 自然语言处理百科
众所周知,随着互联网的迅速发展和广泛普及而导致网上信息爆炸性增长。如何在庞大的互联网上获得有价值的信息已成为网民日益关注的问题。这种以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的的搜索技术的出现为网民快速找到所需信息带来了福音。
但是,2001年,Roper Starch的调查指出,36%的互联网用户一个星期花了超过2个小时时间在网上搜索;71%的用户在使用搜索引擎的时候遇到过麻烦;平均搜索12分钟以后发现搜索受挫;搜索受挫中46%都是因为链接错误;绝大部分(86%)的互联网用户感到应当出现更有效的、准确的信息搜索技术。另一项由Keen所做的调查显示,人们平均每天有四个问题需要从外界获取答案;其中31%的人使用搜索引擎寻找答案;平均每周花费8.75个小时找寻答案;53.3%时间花在从旁人那里获得答案,29%的时间花在亲戚朋友身上,24.3%的是时间花在销售商那里;网上查找答案的,半数以上都不成功;他们每周将花费14.5美元以上,以获取正确的信息。
从这些调查数据中不难看出,尽管搜索服务提供者在研发搜索技术方面已经花费了大量的时间和精力,但是目前的搜索引擎仍然存在不少的局限性,比如信息丢失、返回信息太多、信息无关,这使得网民对于现有的搜索技术仍然不满,期盼更完美的搜索技术的出现。
由于自然语言理解技术的三方面功能,即机器翻译、语义理解及人机会话技术能够赋予搜索技术更具人性化、方便易用的特点。因此,近年来在搜索界得到了广泛的应用。无论是国内外的搜索引擎,都可以寻觅到语义理解、机器翻译的踪迹。
目前在搜索引擎方面主要应用的自然语言理解技术是机器翻译与语义理解技术。应用了这些技术的搜索引擎我们称之为智能搜索引擎。由于它将信息检索从目前基于关键词层面提高到基于知识(或概念)层面,对知识有一定的理解与处理能力,因而具有信息服务的智能化、人性化特征。它允许网民采用自然语言进行信息的检索,为他们提供更方便、更确切的搜索服务。
应用自然语言理解的搜索引擎的三点优势:
1、更高的搜索的易用性 由于智能搜索引擎具有智能分词功能,因此使得查询变得更为简单、易于操作。以网易为例说明:需要搜索"刘德华的最新个人专辑",只需要将整个搜索内容全部输入到搜索框中就可以找到相关的内容;而在传统的搜索引擎中则必须遵守搜索的基本数学规则,输入"刘德华 最新个人专辑"才能够找到搜索的内容。显然在搜索的易用性方面智能搜索引擎具有明显的优势。
2、搜索结果的范围定位准确 由于采用知识(概念)检索技术,明确和缩小的搜索范围,减少对无用信息的搜索。以尤里卡为例说明:要查找"北京的天气"只需要输入"北京天气"就可以找到相关程度甚高的北京的天气预报,同时还会给出相关的天气的内容。而在传统搜索引擎的查询结果中不但有北京天气的内容,还会给出所有与北京天气字样有关的各种内容,增大了用户查找搜索结果的难度。
3、搜索结果的智能性 由于智能搜索引擎有综合知识库为背景,使得信息检索与导航服务更具有智能性。知识库中的知识有助于解决表达差异的问题。所谓表达差异就是用户使用不同的词表达同一概念。而知识库中关于同义词的定义正好可以消除这种表达差异带来的检索困难。
编者注:本篇由《自然语言理解技术及其应用探讨》的部分内容改编。

