研究小记:信息抽取
取自 自然语言处理百科
最近接到一个项目,是关于信息抽取方面的,仔细分析下来,还真的是挺难的。对于现实的应用,如何选取一个最有效的数学模型,这个是非常考验算法功力的事情。因此,这几天把自己闷在家里,网也不上了,Blog也不读了,潜心研究信息抽取(Information Extraction)方面的算法。这其中,又把隐马尔可夫算法(HMM)好好地啃了一下。google china blog 上面有一篇文章《数学之美 系列三 — 隐含马尔可夫模型在语言处理中的应用》,比较经典地讲解了隐马尔可夫算法的应用,是一篇很好的文章。之前,我曾经比较系统地研究过《数学之美》系列的前几篇,还把这几篇放到了我的“每日一贴”栏目中,算是对自己学习的一个记录。虽然把这个栏目的名字定为“每日一贴”,但其实频率远达不到每日一贴。这些文字不是自己写的,所以更需要咀嚼之后,才能真正地为我所用。如果仅仅就是“贴”一下的话,那还真没这个必要了,浪费时间。因此希望加入“每日一贴”的文章,都能够真正地对自己有所帮助。
简单陈列一下信息抽取的三大类方法。
1. 基于规则的方法。这个方法解决特定的问题效果比较好,但同时它对被提取信息的要求也比较苛刻。此方法主要基于规则库进行信息抽取,因此,规则库的质量直接绝对了算法的召回率和准确率。通常情况下,尤其是应用在商业项目中,要想编制一个高质量的规则库是不经济的。项目起始不能将此方法作为核心,待有了足够的数据积累之后,通过制作训练模型和算法,可以对整个项目的质量有一定程度的提升。
2. 隐马尔可夫方法。这是经典的信息抽取算法。但它要求信息源的内容之间是有顺序关联的,即,要求数据的排列是有逻辑关系的。对于内容之间相互独立的信息,它的效果不是很好。非常不幸,我这个项目的数据源这是如此。它的内容是分段的,对于这些段落中国人有习惯顺序,但这种习惯顺序并不能抽象化成逻辑关系,因此不适合使用应马尔可夫算法。
3. 基于文本分类的方面。这种方法利用信息之间的独立假设,使用分类算法抽取信息,适用于处理出现次序相互独立信息的抽取问题。配合质量比较高的中文分词算法,信息抽取的精确率与召回率较高。我要做的项目准备以此方法为核心算法。
转自:http://www.guwendong.cn/post/2006/information_retrieve.html

