❤️❤️❤️❤️❤️❤️ 我们已经正式推出微信小程序，在微信中搜索 TrendForge Pro 即可使用小程序，如果使用 Telegram 请搜索 trendforge_tg ❤️❤️❤️❤️❤️❤️

项目介绍快速开始学习路径项目截图 3 贡献者 10 增长趋势 Commit 历史代码统计生态关系项目时间线项目竞品依赖分析上榜历史

microsoft/VibeVoice

Python 一般

517

最后更新2026-06-08

48k

+211

#13

5.4k

项目介绍

开源前沿语音人工智能

Open-Source Frontier Voice AI

智能解读

智能解读自动生成

VibeVoice 是微软开源的前沿语音人工智能项目，其核心组件 VibeVoice-ASR 是一个功能强大的语音识别模型。该项目能够将长达60分钟的长音频一次性转换为结构化的文字稿，不仅记录对话内容，还能自动识别不同的说话人、标注时间戳，并支持用户添加自定义上下文以提升识别准确性。模型原生支持超过50种语言，具备真正的多语言处理能力。其实用价值在于大幅简化了音频内容处理的工作流程，特别适用于会议记录、访谈整理、播客字幕生成、长视频转录等需要处理大量语音资料的场景。项目已集成至 Hugging Face Transformers 库，并提供了微调代码和高效的 vLLM 推理支持，方便开发者和研究者将其无缝集成到自己的应用或服务中，构建更智能的语音交互功能。

智能标签

智能标签自动生成

Python Transformers 语音识别音频处理多语言长音频支持开发者研究人员

使用场景

使用场景自动生成

最适合需要处理长音频、多语言、实时语音交互的开发者场景。

长会议录音转文字

开发者需要将长达60分钟的会议录音转换成带时间戳和说话人标识的结构化文字稿。

使用VibeVoice-ASR模型，它能单次处理60分钟长音频，自动生成包含说话人、时间戳和内容的完整转录。

将团队周会录音上传，模型自动输出“09:15-12:30 张三：关于Q2目标... 12:31-15:45 李四：我建议...”的结构化会议纪要。

实时语音助手开发

开发者想为应用添加实时语音交互功能，需要低延迟的语音识别和语音合成。

结合VibeVoice-ASR进行实时语音识别，并使用VibeVoice-Realtime-0.5B进行流式文本到语音的实时合成。

开发智能客服应用，用户说话时实时转文字，AI回复时立即用自然语音播报，支持多语言交互。

多语言播客生成

内容创作者需要将文字稿转换成多种语言、多种风格的自然语音播客。

使用VibeVoice-Realtime-0.5B的多语言和多种风格语音合成能力，快速生成不同语言的播客音频。

将一篇英文文章分别转换成德语、法语、日语播客，并可选择新闻播报、故事讲述等不同语音风格。

长视频字幕生成

视频创作者需要为长达数小时的视频教程或纪录片自动生成准确的字幕文件。

利用VibeVoice-ASR支持50多种语言的特性，批量处理长视频音频，输出带时间戳的SRT字幕文件。

将2小时的编程教学视频上传，模型自动生成中英文字幕，准确识别技术术语和说话人切换。

项目健康度

67/100

良好

活跃度 10/23

距上次更新 70 天

人气 25/25

平台 Star TOP 1% · Forks 5,442

增长 17/25

本周 +516 ⭐ · 本月 +2,210 ⭐

社区 7/17

10 位贡献者 · 0 条平台评论

文档 8/10

缺少 1 项内容

在 GitHub 上查看

项目信息

作者 microsoft

来源 GitHub

周期每日

仓库ID microsoft/VibeVoice

最新提交 2026-05-06 06:49:25

第一收录 2026-06-09 08:01:01

最后更新 2026-07-10 00:40:25

赞赏支持

如果本站对你有帮助，欢迎打赏支持

微信

支付宝

Widget 徽章

预览

Markdown

HTML

登录后发表评论

加载评论中...