Higgs Audio v2：音频生成的新标杆，融合千万小时多语种数据，展现前所未有的表达力• 训练资源全面，支持单说话人训练，正在开发多说话人版本，兼容 LoRA 微调，16G 显存即可启动• 自动化多模型标注管道，清洗十亿级音频数据，结合语义与声学特征的统一音频 tokenizer，性能领先业界• 采用创新 DualFFN 架构，极大提升 LLM 对声学 token 的建模能力，计算开销低，生成效果自然流畅• 多语言、多说话人对话生成，自动韵律适配，支持零样本语音克隆与背景音乐同步生成，表现超过 GPT-4o-mini-tts• 在 Seed-TTS、ESD、EmergentTTS 等多个权威评测中名列前茅，情感与疑问类胜率分别达 75.7% 和 55.7%• 开箱即用的 Docker 镜像与多种环境安装方案，提供丰富示例，支持零样本语音克隆、智能单说话人生成、多说话人对话等多场景• 适合科研、产品开发及个性化语音合成需求，助力打造更具表现力和自然度的语音交互体验深入理解语音生成的多维度特征与上下文关联，体现了对声音本质的精准把握，是未来音频 AI 发展的重要里程碑

Higgs Audio v2：音频生成的新标杆，融合千万小时多语种数据，展现前所未有的表达力

• 训练资源全面，支持单说话人训练，正在开发多说话人版本，兼容 LoRA 微调，16G 显存即可启动
• 自动化多模型标注管道，清洗十亿级音频数据，结合语义与声学特征的统一音频 tokenizer，性能领先业界
• 采用创新 DualFFN 架构，极大提升 LLM 对声学 token 的建模能力，计算开销低，生成效果自然流畅
• 多语言、多说话人对话生成，自动韵律适配，支持零样本语音克隆与背景音乐同步生成，表现超过 GPT-4o-mini-tts
• 在 Seed-TTS、ESD、EmergentTTS 等多个权威评测中名列前茅，情感与疑问类胜率分别达 75.7% 和 55.7%
• 开箱即用的 Docker 镜像与多种环境安装方案，提供丰富示例，支持零样本语音克隆、智能单说话人生成、多说话人对话等多场景
• 适合科研、产品开发及个性化语音合成需求，助力打造更具表现力和自然度的语音交互体验

深入理解语音生成的多维度特征与上下文关联，体现了对声音本质的精准把握，是未来音频 AI 发展的重要里程碑。
#资源参考 #音频

GitHub

GitHub - JimmyMa99/train-higgs-audio: Text-audio foundation model from Boson AI

Text-audio foundation model from Boson AI. Contribute to JimmyMa99/train-higgs-audio development by creating an account on GitHub.