-
VoiceCraft – 开源的语音编辑和文本转语音模型
VoiceCraft项目简介 VoiceCraft是一个由德克萨斯大学奥斯汀分校研究团队开源的神经编解码器语言模型,专注于零样本语音编辑和文本到语音(TTS)任务。该模型采用Transformer架构,通过创新的token重排过程,结合因果掩蔽和延迟叠加技术,可零样本实现在现有音频序列内的高效生成。VoiceCraft在多种口音、风格和噪声条件下的语音编辑和TTS任务上展现出卓越性能,生成的语音自…- 1
- 0
-
PlayDiffusion发布:开源扩散模型实现语音“局部修改”不留痕
Play AI 日前开源推出了一款全新语音编辑模型——PlayDiffusion,这是一种基于扩散模型的创新性工具,专为语音局部修改而设计。不同于传统的文本转语音系统需对整段音频重生成,PlayDiffusion 支持直接对语音中的某一部分进行替换、删除或调整,而其他未修改部分将保持完全一致。这种方式不仅极大提高了效率,也让音频编辑进入“所听即所得”的新阶段。 用户只需提供目标文本(例如将音频中的…- 2
- 0