计算语言学的视野
取自 自然语言处理百科
计算语言学(computational linguistics)与自然语言处理(Natural Language Processing)两个概念关系密切,自然语言处理可谓计算语言学的操作部分,但他们关注的视野是一致的。
计算语言学的第一个视野是内省。计算语言学是语言学、数学、计算机科学的交叉学科,其核心是语言学。那么计算语言学向内省视,就是用计算的方法检验语言学的理论或帮助研究语言学现象。
现代语言学肇始于索绪尔,第一次给出能指(signifier)与所指(signified)的概念。这两个概念到现在除了在哲学中被提及外,计算机科学中可以用此来解释的地方也比比皆是。可以说索绪尔给了第一个语言的模型,即语言是能指与所指的的对应,到目前计算语言学仍然在试图建立更为复杂的形式化语言模型,都跳不出能指与所指的关系。
齐夫(Zipf)是美国语言学家,他提出的齐夫定律(Zipf’s law)所揭示的不仅仅是语言方面的本质。事实上,不仅小到在语言的词法、句法、语义中,而且在诸如复杂网络如社会网络中,甚至达到在城市规模统计中,都有类似的分布。可见齐夫定律是一个统摄人类行为的全局性普适性的自然规律。心理学中的费希纳(Fechner)定律指出感觉量和物理量之间也是一个指数的对应关系,比如音乐中人们认为音高差别相同的两对音,其频率的对数在数值上差别也相同,不知其与齐夫定律在本质上是否有相联系之处。
对计算语言学甚至说计算机编译影响最大的一个现代语言学理论就是转换生成语法。建立者是美国的乔姆斯基(Chomsky),在哲学、数学、心理学、语言学、计算机科学甚至政治学的讲坛上都能听到他的名字。
近日看一篇论文实觉大快,论文用一个简单的naming game,用信息论的方法量化说者和听者的代价,在某一个权重下求能指所指间对应方法的最优,在相变的点上,就得到了满足齐夫定律的结果。用一个如此简单的模型,人工地演绎出了人类社会的一个特征性质,其意义窃以为可以等同于人工合成有机物。
如果说计算语言学的第一个视野是向内的研究语言学形而上的道,那么第二个视野就是向外的研究形而下的器。应用语言学的理论和计算机这个工具处理自然语言,直到理解语言,因此将其归为人工智能的范畴。
统计语言模型在各个自然语言处理的应用中都有用到。如果套用索绪尔的语言(language)和言语(parole)这对概念,那么形式化的语言模型就是理性主义地用规则从语言出发逼近自然语言本质;统计语言模型就是经验主义地用语料从言语出发逼近自然语言本质。
机器学习是自然语言处理常用到的方法。对如自然语言这样大规模的数据,这样结构不明晰的知识,用机器学习的方法很适用。
马少平老师提到人工智能是从“计算”到“算计”的智能化,而自然语言处理面对的又是索绪尔所说的“言语”,再加上机器学习中的“学”的过程,因此“计算语言学”的某些部分,也可以反过来称作“学言语算计”。
分词所对应的语言对象和其它自然语言处理的对象相比是传统语言学框架中最基础的,通常也被认为是自然语言处理的第一步。近年来基于字的分词比以前传统的基于词的分词占了上风,也许是因为更一般的语言模型,更适合机器算法的应用。目前分词的错误率,主要来自未登录词和歧义,而以未登录词为甚。
黄昌宁老师讲分词时曾提到“分词与理解孰先孰后”的问题,值得深思。其实在自然语言处理的各个领域都有类似问题。比如目前的文本分类问题,通常的算法,不但没有考虑语义,甚至只把文本当作bag of words的向量空间模型。最近也有论文提到初步的基于内容的文本分类。不过也只是基于简单的主题分析,修改每个词在向量空间中权重。
路漫漫其修远兮,语言学作为一个新兴学科,正在进行着科学化的过程,即由非自然科学到自然科学的转变,语言学的范式还未明晰,本质亦有待揭示。比如自然语言与物理模型等传统范式学科的对象不同,它有复杂网络的特点,又有流变性、任意性。对物理,比如流体力学的模拟,可以有现成的计算公式模拟,而对于文本,并没有这样的模型可以处理。
路漫漫其修远兮,目前的网络搜索引擎,还基本上停留在索引的模式,对中文查询的理解也基本只做到分词这一步。语音识别、文字识别、问答系统、机器翻译等应用,目前也只能达到很基本的水平。表现的提高有赖于计算机性能的提高、人工智能算法的改良与语言模型的优化。
计算语言学作为一个高度交叉的新兴学科,不论是探究自然本质还是付诸实际应用,在不远的将来必定会有令人期待的惊喜和异常快速的发展。
转自:水木社区自然语言处理版 http://www.newsmth.net/

