语音合成的三个层次

取自 自然语言处理百科

跳转到: 导航, 搜索

  按照人类言语功能的不同层次,语言合成也可分成三个层次,它们是:

  (1)从文字到语音的合成(Text-To-Speech);

  (2)从概念到语音的合成(Concept-To-Speech);

  (3)从意向到语音的合成(Intention-To-Speech)。

  这三个层次反映了人类大脑中形成说话内容的不同过程。涉及人类大脑的高级神经活动。不难想象,即使是按规则的文字到语音合成(文语合成)也已经是相当困难的任务。为了合成出高质量的语言,除了依赖于各种规则,包括语义学规则、词汇规则、语音学规则外,还必须对文字的内容有很好的理解,这将涉及自然语言理解的问题。从这一点讲,文语转换系统实际上也可看作一个人工智能系统。文语转换过程是先将文字序列转换成音韵序列,再由语音合成器生成语音波形。其中第一步涉及语言学处理,例如分词、字音转换等,以及一整套有效的韵律控制规则;第二步需要先进的语音合成技术,能按要求实时合成出高质量的语音流。因此一般说来,文语合成系统都需要一套复杂的文字序列到音素序列的转换程序,也就是说,文语转换系统不仅要应用数字信号处理技术,而且必须有大量的语言学知识的支持。当然其中语音合成终究还是最基本的部分,它相当于“人工嘴巴”,任何语言合成系统包括文语转换系统,都离不开语音合成器。

个人工具
工具箱