Meta 推出 Voicebox,一个全能语音生成模型

Meta 推出 Voicebox,一个全能语音生成模型

Meta 最近瞄准了除了大语言模型之外的其他媒体生成式模型开始发力,比如上周推出了 Voicebox,一个全能语音生成模型,这是一个支持六种语言和多种语音处理功能的模型,可惜的是暂时不开源,功能和原理包括:

大致原理

在Voicebox之前,生成式语音AI需要使用精心准备的训练数据为每个任务进行特定的训练。Voicebox采用了一种新的方法,仅通过原始音频和相应的转录来学习。与用于音频生成的自回归模型不同,Voicebox可以修改给定样本的任何部分,而不仅仅是给定音频片段的末尾部分。

基于上下文的文本转语音合成

使用仅为两秒的输入音频样本,Voicebox可以匹配样本的音频风格并用于文本转语音生成。未来的项目可以在此基础上发展,为无法说话的人提供语音,或者允许人们自定义非玩家角色和虚拟助手使用的声音。

跨语言风格转换

给定一段英语、法语、德语、西班牙语、波兰语或葡萄牙语的语音样本和文本段落,Voicebox可以产生该语言的文本朗读。

语音降噪和编辑

Voicebox的上下文学习使其在生成语音以无缝编辑音频录音片段方面表现出色。它可以重新合成被短时噪音破坏的语音部分,或者替换掉错误发音的单词,而无需重新录制整个语音。

多样化的语音采样

通过从多样化的野外数据中学习,Voicebox能够生成更贴近现实世界中人们交流方式的语音,覆盖了上述六种语言。将来,这种能力可以用于生成合成数据,以帮助更好地训练语音助手模型。

更详细的信息也可以去看他们的论文:https://research.facebook.com/publications/voicebox-text-guided-multilingual-universal-speech-generation-at-scale/

Meta 推出 Voicebox,一个全能语音生成模型

正文完
 0