Eyte Channel

16:12 · 2026年1月9日 · 周五

Vibe Voice - 微软开源 AI 语音框架

https://github.com/microsoft/VibeVoice

VibeVoice 是微软开源的 AI 语音框架，用于从文本生成富有表现力的长篇多说话人对话音频（如播客），通过 LLM 理解文本上下文和对话流，生成高保真音频。

● 长篇多说话人模型：支持最长 90 分钟音频、最多 4 个不同说话人的对话式语音合成
● 实时流式 TTS 模型：初始音频延迟约 300 毫秒，支持流式文本输入的实时语音生成
● 超低帧率语音分词器：以 7.5Hz 帧率的连续语音分词器保持音频保真度同时提升计算效率
● 多语言支持：支持英文、中文以及实验性支持 9 种语言（德、法、意、日、韩、荷、波、葡、西班牙语）
● 风格化语音：提供 11 种不同的英文风格语音供用户选择

#TTS #Voice #AI #GitHub

GitHub

GitHub - microsoft/VibeVoice: Open-Source Frontier Voice AI

Open-Source Frontier Voice AI. Contribute to microsoft/VibeVoice development by creating an account on GitHub.

TTS Voice AI GitHub

20:48 · 2025年10月26日 · 周日

蛐蛐 (QuQu) - 开源免费的 Wispr Flow 替代方案 | 为中文而生的下一代智能语音工作流

https://github.com/yan5xu/ququ

离线语音输入，无需会员，不连云端，保证隐私。

蛐蛐 (QuQu) 是一个开源免费的 Wispr Flow 替代方案, 专为中文用户打造的注重隐私的桌面端语音输入与文本处理工具。

它集成了阿里巴巴开源的 FunASR 本地语音识别模型, 并支持配置国内顶尖的大语言模型, 提供高精度的中文语音转文字和智能文本优化功能。

● 完全免费开源, 数据本地处理, 保护用户隐私
● 专为中文优化, 支持国产 AI 模型如通义千问、Kimi 等
● 独创 "ASR 精准识别 + LLM 智能优化 " 的两段式引擎
● 能准确识别并格式化编程术语, 支持自定义 AI 指令
● 提供全局快捷键唤醒, 实时识别和无缝粘贴功能

#AI #Voice #Tool #GitHub

GitHub

GitHub - yan5xu/ququ: 开源免费的 Wispr Flow 替代方案 | 集成FunASR本地模型和可配置大语言模型的下一代中文桌面语音工作流

开源免费的 Wispr Flow 替代方案 | 集成FunASR本地模型和可配置大语言模型的下一代中文桌面语音工作流 - yan5xu/ququ

AI Voice Tool GitHub

20:43 · 2025年10月26日 · 周日

WhisperLiveKit - 本地语音转录工具（开源语音识别转文字）

https://github.com/QuentinFuxa/WhisperLiveKit

WhisperLiveKit 是一个开源的本地语音转录工具，集实时语音转文本、翻译和说话人分离于一体。它使用了最新的语音识别和语音分离技术，可以提供低延迟和高准确度的转录结果，能用于会议实时记录和跨语言交流。

● 提供实时语音转文本功能，支持多达 100 种语言的翻译
● 支持实时说话人识别和分离
● 提供简单易用的前端和后端 API
● 支持在浏览器和 Chrome 扩展中使用
● 支持在 Docker 容器中部署

#Voice #AI #Tool #GitHub

GitHub

GitHub - QuentinFuxa/WhisperLiveKit: Simultaneous speech-to-text models

Simultaneous speech-to-text models. Contribute to QuentinFuxa/WhisperLiveKit development by creating an account on GitHub.

Voice AI Tool GitHub

14:18 · 2025年8月21日 · 周四

Klic Studio - 音视频处理工具（翻译 / 配音）

https://github.com/krillinai/KlicStudio

多平台发布 / 搬运视频好帮手

Klic Studio 是由 Krillin AI 开发的多功能音视频本地化和增强解决方案。

集成了视频翻译、配音和语音克隆，支持横屏和竖屏格式，确保在所有主要平台（Bilibili、小红书、抖音、微信视频、快手、YouTube、TikTok 等）上完美呈现。

通过端到端的工作流程，您只需几次点击即可将原材料转化为精美的跨平台内容。

● 视频获取：支持 yt-dlp 下载或本地文件上传
● 准确识别：基于 Whisper 的高精度语音识别
● 智能分段：使用 LLM 进行字幕分段和对齐
● 术语替换：一键替换专业词汇
● 专业翻译：基于上下文的 LLM 翻译，保持自然语义
● 语音克隆：提供 CosyVoice 中选择的语音音调或自定义语音克隆
● 视频合成：自动处理横屏和竖屏视频及字幕布局
● 跨平台：支持 Windows、Linux、macOS，提供桌面和服务器版本

#Video #Voice #Tool #GitHub

GitHub

GitHub - krillinai/KrillinAI: AI video translation & dubbing tool for humans and AI Agents, powered by LLMs. Full pipeline: download…

AI video translation & dubbing tool for humans and AI Agents, powered by LLMs. Full pipeline: download, transcribe, translate, TTS dub, reformat, cover generation. 100+ languages, optimized...

Video Voice Tool GitHub

02:12 · 2025年8月20日 · 周三

https://github.com/wangwangit/tts

一个基于 Microsoft Edge TTS 的免费在线语音合成服务，可自行部署在 Cloudflare Worker 上

#TTS #Voice #GitHub #Cloudflare

GitHub

GitHub - wangwangit/tts: 一个基于 Microsoft Edge TTS 的免费在线语音合成服务，支持 20+ 种中文声音，一键将文字转换为自然流畅的语音。

一个基于 Microsoft Edge TTS 的免费在线语音合成服务，支持 20+ 种中文声音，一键将文字转换为自然流畅的语音。 - wangwangit/tts

TTS Voice GitHub Cloudflare