#AI #音频 #开源

SpleeterGUI

音源分离工具,可将歌曲或音频文件拆分为鼓点、贝斯、人声等独立轨道,可用于重新混音或去除录音中的背景噪音,如鸟鸣、路声或喇叭声。使用前需下载完整模型(约 1.2GB),免费使用。

https://spleetergui.com/

频道 @Edgebyte
#人声分离 #降噪 #音频

Voicss

人声分离工具,可将音频中的人声和背景音乐进行分离,并可单独下载,支持 MP3、WAV、M4A、FLAC 等格式,亲测效果非常不错,可以用来制作伴奏或者其他音频创作,另还有音频降噪功能,完全免费,无需注册。

https://www.voicss.com
#人声分离 #降噪 #音频

Voicss

人声分离工具,可将音频中的人声和背景音乐进行分离,并可单独下载,支持 MP3、WAV、M4A、FLAC 等格式,亲测效果非常不错,可以用来制作伴奏或者其他音频创作,另还有音频降噪功能,完全免费,无需注册。

https://www.voicss.com

频道 @WidgetChannel
Higgs Audio v2:音频生成的新标杆,融合千万小时多语种数据,展现前所未有的表达力

• 训练资源全面,支持单说话人训练,正在开发多说话人版本,兼容 LoRA 微调,16G 显存即可启动
• 自动化多模型标注管道,清洗十亿级音频数据,结合语义与声学特征的统一音频 tokenizer,性能领先业界
• 采用创新 DualFFN 架构,极大提升 LLM 对声学 token 的建模能力,计算开销低,生成效果自然流畅
• 多语言、多说话人对话生成,自动韵律适配,支持零样本语音克隆与背景音乐同步生成,表现超过 GPT-4o-mini-tts
• 在 Seed-TTS、ESD、EmergentTTS 等多个权威评测中名列前茅,情感与疑问类胜率分别达 75.7% 和 55.7%
• 开箱即用的 Docker 镜像与多种环境安装方案,提供丰富示例,支持零样本语音克隆、智能单说话人生成、多说话人对话等多场景
• 适合科研、产品开发及个性化语音合成需求,助力打造更具表现力和自然度的语音交互体验

深入理解语音生成的多维度特征与上下文关联,体现了对声音本质的精准把握,是未来音频 AI 发展的重要里程碑。
#资源参考 #音频
#音频 #压缩

TSAC

音频压缩工具,专为极低比特率场景设计,其在 44.1 kHz 采样率下可实现单声道 5.5 kb/s 或立体声 7.5 kb/s 的压缩,并保持清晰的感知音质,三分半钟的立体声音乐可以压缩至约 192 KiB 文件大小,在 GPU 与 CPU 上的压缩结果一致,但 CPU 模式下速度较慢,适用于需要极端压缩率且对存储或带宽敏感的应用场景,如语音传输、语音邮件存储、低带宽环境下的音频流传输等。

https://bellard.org/tsac

频道 @Edgebyte
 
 
Back to Top