明日的播音明星(一)
你听说过Mike这个名字吗?也许并不很陌生。但此Mike非彼Mike。他是一个职业的播报者。如今,他的声音遍及各个角落。在提供电子地图查询服务的MapQuest网站上,他会依据你点击的地点大声地给予作答。如果你喜欢体验从耳机中"听"Yahoo!电子邮件的感觉,那个声音就是Mike的。不久,Mike可能还要为电视天气预报配画外音。但是,你可别期望能在屏幕上看见他的面孔。他不是人类。他只是个将预录声音重新拼凑组合形成的计算机"声音",并被誉为是"最接近人类发音的声音"。
Mike是2001年由AT&T实验室推出的文本朗读技术(TFS,使文本信息转换成语音信息的技术)中一颗最耀眼的语音明星。他是AT&T实验室中"自然语音"系列大家庭中的一员。他的兄弟姐妹很多,包括讲德语的Reiner和Klara,讲西班牙语的Rosa,讲法语的Alain以及讲英式英语的Charles。他的另一个讲美式英语的兄弟Crystal还为最新影片《红色星球》中的太空船配过音。像Mike、Crystal、Reiner和Rosa,你只能是闻其声而不见其人。
语音合成系统的亮相即是一场技术革命的胜利也是一个古老梦想的实现。世界上第一台"机械发声的语音器"是1791年由维也纳研究者Wolfgang yon Kempelen所推出的。这台机器采用一系列振动簧片来模拟语音中主要的元辅音,有点像是器乐演奏。直到电子时代来临以后,才有机器开始真正的模仿人类的声音。20世纪50年代,研究者们费尽心力模仿人类声道的发声机理、共振频率或是产生的共振峰来制造语音合成器。尽管造就的声音接近人类,但却十分"锈涩"。像Stephen Hawking发明的语音合成器就是最著名的例子。它可以为你解释通用汽车公司的历史,但机械的发音使你根本无法从它那购买到一辆二手车。当然,这对于一个有沟通交流能力的人来说要容易得多。
"在某一点上,很显然,语音合成技术的发展太缓慢了。不断膨胀的需求使我们开始寻求更为切实的途径。"AT&T实验室负责语音合成技术开发并最终创造出Mike的研究员Juergen Sehroeter激动地说。20世纪70年代,在当时贝尔实验室的研究员们提出了一种新的方法。他们摒弃了以往那种通过拼凑单词来产生人类声音的做法,开始使用现成的声音,即让一个口齿清晰的人说上几个小时的标准英语句子,然后设计电脑程序对预录语音进行拆分、拼接,最终表达出他们想说的话。Schroeter感慨地说,"我的一些同事感觉我们似乎已经放弃了更科学的做法。"但实际上,科学仅仅只是转移了焦点,从发声的机械学到合成的数学方法。
语音合成技术主要分两部分。首先是电脑程序将预录的文字序列转换成音韵序列,术语叫音素。然后,音素被重排形成新的单词。例如,录音单词Cat可以被拆解成k、ae和t3个音素。然后它们再排列形成单词tack。这种方法很有效果。与机械语音相比,的确有明显的提高,但仍然很不完善。仅有的50多个音素远远满足不了实际的需要,它们根本无法捕捉到口语当中细微的语调。"你不能只是简单的从这个句子中取出一个元音就随意的把它放人另一个句子中。"AT&T语音研究员Mark Beutnagel解释说。
到了20世纪90年代中期,AT&T研究员们开始运用新一代的超级计算机建立大型数字音素"语音库"。此时的电脑程序选出的"t"音可不再是一个,而可能是一万个。