基因组与自然语言处理
取自 自然语言处理百科
The Human Genome and MEDLINE are both the foci of intense data-mining efforts worldwide. The biomedical literature has much to say about sequence, but it also seems that sequence can tell us much about the biomedical literature. Biological natural language processing is an emerging field of research that seeks to explore systematically the relationships between genes, sequences and the biomedical literature as a basis for a new generation of data-mining tools.
这两个研究领域乍听起来感觉似乎没有什么关系,但是在信息技术迅速发展的今天,这两个研究领域之间的联系越来越多。人类基因组和MEDLINE正是全世界数据挖掘的两大焦点,基因组数据描述序列信息,MEDLINE记录文献信息。然而,基因组数据也在告诉我们相关的文献信息,文献中也提到了很多序列的信息。生物自然语言处理就是一个试图对基因序列和生物医学文献之间的联系进行系统探索的新兴研究领域。本文是一篇关于生物自然语言处理的综述,它从自然语言处理的三个基本方面:信息获取,语义学,以及信息抽提,对自然语言处理技术在生物医学文献分析中的运用发展状况进行了系统的论述,并阐述了基因组序列信息和文献信息之间的联系和协同关系。读者通过这篇文献(GENOMICS AND NATURAL LANGUAGE PROCESSING)可以对当前生物自然语言处理这个生物信息学的新兴领域的概况有一个较全面的了解。

