常用语音合成方法的比较

取自 自然语言处理百科

跳转到: 导航, 搜索

  “未来的十年是语音技术的时代”。随着语音技术研究的突破,其对计算机发展和社会生活的重要性日益凸现出来。语音合成技术是语音技术中十分实用的一项重要技术,它能解决人民大众的实际需求,能够深入到社会的各行各业中去。

  语音合成技术经历了一个逐步发展的过程,从参数合成到拼接合成,再到两者的逐步结合,其不断发展的动力是人们认知水平和需求的提高。目前,常用的语音合成方法主要有:共振峰合成、LPC合成、PSOLA拼接合成和LMA声道模型技术。它们各有优缺点,人们在应用过程中往往将多种技术有机地结合在一起,或将一种技术的优点运用到另一种技术上,以克服另一种技术的不足。

1、共振峰合成

  语音合成的理论基础是语音生成的数学模型。该模型语音生成过程是在激励信号的激励下,声波经谐振腔(声道),由嘴或鼻辐射声波。因此,声道参数、声道谐振特性一直是研究的重点。习惯上,把声道传输频率响应上的极点称之为共振峰,而语音的共振峰频率(极点频率)的分布特性决定着该语音的音色。

  音色各异的语音具有不同的共振峰模式,因此,以每个共振峰频率及其带宽作为参数,可以构成共振峰滤波器。再用若干个这种滤波器的组合来模拟声道的传输特性(频率响应),对激励源发出的信号进行调制,再经过辐射模型就可以得到合成语音。这就是共振峰合成技术的基本原理。基于共振峰的理论有以下三种实用模型。

  1)级联型共振峰模型

  在该模型中,声道被认为是一组串联的二阶谐振器。该模型主要用于绝大部分元音的合成。

  2)并联型共振峰模型

  许多研究者认为,对于鼻化元音等非一般元音以及大部分辅音,上述级联型模型不能很好地加以描述和模拟,因此,构筑和产生了并联型共振峰模型。

  3)混合型共振峰模型

  在级联型共振峰合成模型中,共振峰滤波器首尾相接;而在并联型模型中,输入信号先分别通过幅度调节再加到每一个共振峰滤波器上,然后将各路的输出叠加起来。将两者比较,对于合成声源位于声道末端的语音(大多数的元音),级联型合乎语音产生的声学理论,并且无需为每一个滤波器分设幅度调节;而对于合成声源位于声道中间的语音(大多数清擦音和塞音),并联型则比较合适,但是其幅度调节很复杂。基于此种考虑,人们将两者结合在一起,提出了混和型共振峰模型。

  共振峰模型是基于对声道的一种比较准确的模拟,因而可以合成出自然度比较高的语音,另外由于共振峰参数有着明确的物理意义,直接对应于声道参数,因此,可以容易利用共振峰描述自然语流中的各种现象,并且总结声学规则,最终用于共振峰合成系统。

  但是,人们同时也发现该技术有明显的弱点。首先由于它是建立在对声道的模拟上,因此,对于声道模型的不精确势必会影响其合成质量。另外,实际工作表明,共振峰模型虽然描述了语音中最基本最主要的部分,但并不能表征影响语音自然度的其他许多细微的语音成分,从而影响了合成语音的自然度。另外,共振峰合成器控制十分复杂,对于一个好的合成器来说,其控制参数往往达到几十个,实现起来十分困难。

  基于这些原因,研究者继续寻求和发现其他新的合成技术。人们从波形的直接录制和播放得到启发,提出了基于波形拼接的合成技术,LPC合成技术和PSOLA合成技术是其中的代表。与共振峰合成技术不同,波形拼接合成是基于对录制的合成基元的波形进行拼接,而不是基于对发声过程的模拟。

2、LPC参数合成

  波形拼接技术的发展与语音的编、解码技术的发展密不可分,其中LPC技术(线性预测编码技术)的发展对波形拼接技术产生了巨大的影响。LPC合成技术本质上是一种时间波形的编码技术,目的是为了降低时间域信号的传输速率。

  LPC合成技术的优点是简单直观。其合成过程实质上只是一种简单的解码和拼接过程。另外,由于波形拼接技术的合成基元是语音的波形数据,保存了语音的全部信息,因而对于单个合成基元来说能够获得很高的自然度。

  但是,由于自然语流中的语音和孤立状况下的语音有着极大的区别,如果只是简单地把各个孤立的语音生硬地拼接在一起,其整个语流的质量势必是不太理想的。而LPC技术从本质上来说只是一种录音+重放,对于合成整个连续语流LPC合成技术的效果是不理想的。因此,LPC合成技术必须和其他技术相结合,才能明显改善LPC合成的质量。

3、PSOLA合成技术

  20世纪80年代末提出的PSOLA合成技术(基音同步叠加技术)给波形拼接合成技术注入了新的活力。PSOLA技术着眼于对语音信号超时段特征的控制,如基频、时长、音强等的控制。而这些参数对于语音的韵律控制以及修改是至关重要的,因此,PSOLA技术比LPC技术具有可修改性更强的优点,可以合成出高自然度的语音。

  PSOLA技术的主要特点是:在拼接语音波形片断之前,首先根据上下文的要求,用PSOLA算法对拼接单元的韵律特征进行调整,使合成波形既保持了原始发音的主要音段特征,又能使拼接单元的韵律特征符合上下文的要求,从而获得很高的清晰度和自然度。

  PSOLA技术保持了传统波形拼接技术的优点,简单直观,运算量小,而且还能方便地控制语音信号的韵律参数,具有合成自然连续语流的条件,得到了广泛的应用。

  但是,PSOLA技术也有其缺点。首先,PSOLA技术是一种基音同步的语音分析/合成技术,首先需要准确的基因周期以及对其起始点的判定。基音周期或其起始点的判定误差将会影响PSOLA技术的效果。其次,PSOLA技术是一种简单的波形映射拼接合成,这种拼接是否能够保持平稳过渡以及它对频域参数有什么影响等并没有得到解决,因此,在合成时会产生不理想的结果。

4、LMA声道模型

  随着人们对语音合成的自然度和音质的要求越来越高,PSOLA算法表现出对韵律参数调整能力较弱和难以处理协同发音的缺陷,因此,人们又提出了一种基于LMA声道模型的语音合成方法。这种方法具有传统的参数合成可以灵活调节韵律参数的优点,同时又具有比PSOLA算法更高的合成音质。

  目前,主要的语音合成技术是共振峰合成技术和基于PSOLA算法的波形拼接合成技术。这两种技术各有所长,共振峰技术比较成熟,有大量的研究成果可以利用,而PSOLA技术则是比较新的技术,具有良好的发展前景。过去这两种技术基本上是互相独立发展的,现在许多学者开始研究它们两者之间的关系,试图将两者有效地结合起来,从而合成出更加自然的语流。


转自:http://market.c114.net/154/a189724.html

个人工具
工具箱