语音合成的发展方向

取自 自然语言处理百科

跳转到: 导航, 搜索

1、提高合成语音的自然度

  提高合成语音的自然度仍然是高性能文语转换的当务之急。就汉语语音合成来说,目前在单字和词组一级上,合成语音的可懂度和自然度已基本解决,但是到句了子乃至篇章一级时其自然度问题就比较大。

  基于语音数据库的语音合成方法有望进一步提高语音合成的自然度。因为这是一种采用自然语音波形直接拼接的方法,进行拼接的语音单元是从一个预先录下的自然语音数据库中挑选出来的因此有可能最大限度地保留语音的自然度。但由此产生了一系列新的需要研究的问题,包括:如何确定语音合成的基元,根据什么准则去挑选合适的基元;韵律参数定量化问题,对数据库进行定标问题;以及如何将统计的方法和规则方法相结合使机器能自动发现和找出所需的语音单元。保证最高的合成语句自然度等等。

  无论用哪种合成方法韵律规则的总结,特别是连续语音的韵律规则总结,尽可能将定性的规则描述定量化,对自然度始终有最重要的影响。还有前端文本处理,对合成语音的自然度也具有举足轻重的影响,完整全面的解决,需要自然语言理解的突破。

2、丰富合成语音的表现力

  目前国内外大多数语音合成研究是针对文语转换系统,且只能解决以某种朗读风格将书面语言转换成口语输出,缺乏不同年龄、性别特征及语气、语速的表现,更不用说赋予个人的感情色彩。随着信息社会的需求发展,对人机交互提出了更高的要求,人机口语对话系统的研究也提到了日程上。即语音合成研究已开始从文字到语音的转换阶段向概念到语音的转换阶段发展。这不仅对语音合成技术提出了更高的要求,而且涉及到计算机语言生成,涉及人类大脑的高级神经活动。但就语音合成来说,仍是一个要丰富合成语音的表现力问题。相对来说采用波形拼接方法来增强合成语音表现力比较困难,尽管也可以通过增加音库容量和音库个数来达到改变合成语音的特性,但毕竟它对韵律的控制能力非常有限。更为有效的办法是采用参数合成法,分析参数特征,通过对相关参数的调整来实现对年龄、性别特征的改变,进一步实现语气、语调的变化,由于这种改变是连续的,对象特征可以千千万万,显得更有生命力。近年来提出的基于LMA(对数振幅近似)技术的语音合成器,Hybrid Harmonic/Stochastic模型,Sinusoidal模型等已被证实是一些新颖的能合成出高质量语音的参数合成方法,为此应继续深入这方面的研究,以期在参数合成技术上取得突破。

3、降低语音合成技术的复杂度

  语音合成技术正在走向市场。为了适应社会的需求,扩大文语合成的应用场合,除了解决好上面两个问题,提高合成语音的质量和增强语音合成的表现力以外,在其他实用化方面也有要加以改进的地方。就目前汉语文语转换系统而言,减小音库容量就是一个重要课题。目前高质量的汉语文语转换系统一般需要几兆字节到几十兆,甚至几百兆字节的存储容量,这在以PC机或工作站为硬件平台的应用中是没有问题的。而对于象HPC,PDA及无线通信手机,商务通等资源有限的设备上就设法承受。解决的方法可以是通过语音压缩编码的方法采压缩音库所需的容量,或者采用更小的合成基元,例如用声母、韵母或双音素、半音节,以及减少合成语音所需的音节基元数等等。然而又不能增加算法的复杂度,因为运算量及系统开销同样会直接影响汉语语音合成的应用。既要提高语凌晨合成的质量,又要降低语音合成的复杂度,这始终是一个矛盾的两个方面。

4、多语种文语合成

  语言是人们交流的工具,不同民族有自己不同的语言,不同语言之间的交流在今天开放的信息社会和网络时代显得十分重要,多语种的文语合成有着独特的应用价值。例如在自动电话翻译,有声的电子邮件等中都提出多语种的合成,即使是对汉语合成也有多方言文语转换的需求。理想的多语种合成系统最好是各种语言其用一种合成算法或语音合成器,但是现有的语音合成系统大多是针对某一种语言或若干种语言开发出来的,所采用的算注及规则都是和某种语言密切相关的,因此很难推广到其他的语种。例如汉语就和西方语言有很大的差异,国内的系统都是做汉语文语转换,它的一套韵律控制规则完全不适合于英语,而且主要是合成汉语普通话,即使推广到广东话和上海话都有相当的难度。可见要真正解决多语种的文语合成,从文本处理到语音合成都必须有新的思路。美国贝尔实验室在多语种文语转换方面作了大量的工作,其中包括汉语普通话合成值得注意。

个人工具
工具箱