说话者的3秒录音合成高质量个性化语音

本次为大家分享的是VALL-E X可以通过仅使用未曾见过的说话者的3秒录音作为声学提示，合成高质量的个性化语音，即使是对于一位母语讲者，也可以在另一种语言中执行。此实现支持三种语言（英语、中文、日语）的零尝试、单语/跨语言文本到语音功能。

VALL-E X 是一个强大而创新的多语言文本转语音（TTS）模型，最初由微软发布。语音克隆带提供了多种语言支持，包括英语、中文和日语，通过仅使用未曾见过的说话者的3秒录音作为声学提示，可以合成高质量的个性化语音。对于母语讲者来说，该技术也可以在另一种语言中轻松应用。

用户可以上传一个3到10秒的语音作为音频提示，并键入想要合成的文本，模型将用与音频提示相同的语音合成给定文本的语音。此外，该模型还能保留给定语音的情感和声学环境。

这样知道抖音短视频里面熟悉的知名的声音怎么来的吧，感觉创作自己的短视频作品吧。

上传一个持续3到10秒的语音作为音频提示，并键入您想要合成的文本。

模型将用您的音频提示相同的声音合成给定文本的语音。

该模型还倾向于保留您给定语音的情感和声学环境。

生成海报