microsoft

microsoft/VibeVoice

Python 活跃
224
2026-04-05
36k
+10k
#3
4.2k

项目介绍

开源前沿语音人工智能

Open-Source Frontier Voice AI

智能解读

智能解读 自动生成

VibeVoice 是微软开源的前沿语音人工智能项目,其核心组件 VibeVoice-ASR 是一个功能强大的语音识别模型。该项目能够将长达60分钟的长音频一次性转换为结构化的文字稿,不仅记录对话内容,还能自动识别不同的说话人、标注时间戳,并支持用户添加自定义上下文以提升识别准确性。模型原生支持超过50种语言,具备真正的多语言处理能力。 其实用价值在于大幅简化了音频内容处理的工作流程,特别适用于会议记录、访谈整理、播客字幕生成、长视频转录等需要处理大量语音资料的场景。项目已集成至 Hugging Face Transformers 库,并提供了微调代码和高效的 vLLM 推理支持,方便开发者和研究者将其无缝集成到自己的应用或服务中,构建更智能的语音交互功能。

智能标签

使用场景

使用场景 自动生成

最适合需要处理长音频、多语言、实时语音交互的开发者场景。

1

长会议录音转文字

开发者需要将长达60分钟的会议录音转换成带时间戳和说话人标识的结构化文字稿。

使用VibeVoice-ASR模型,它能单次处理60分钟长音频,自动生成包含说话人、时间戳和内容的完整转录。

将团队周会录音上传,模型自动输出“09:15-12:30 张三:关于Q2目标... 12:31-15:45 李四:我建议...”的结构化会议纪要。

2

实时语音助手开发

开发者想为应用添加实时语音交互功能,需要低延迟的语音识别和语音合成。

结合VibeVoice-ASR进行实时语音识别,并使用VibeVoice-Realtime-0.5B进行流式文本到语音的实时合成。

开发智能客服应用,用户说话时实时转文字,AI回复时立即用自然语音播报,支持多语言交互。

3

多语言播客生成

内容创作者需要将文字稿转换成多种语言、多种风格的自然语音播客。

使用VibeVoice-Realtime-0.5B的多语言和多种风格语音合成能力,快速生成不同语言的播客音频。

将一篇英文文章分别转换成德语、法语、日语播客,并可选择新闻播报、故事讲述等不同语音风格。

4

长视频字幕生成

视频创作者需要为长达数小时的视频教程或纪录片自动生成准确的字幕文件。

利用VibeVoice-ASR支持50多种语言的特性,批量处理长视频音频,输出带时间戳的SRT字幕文件。

将2小时的编程教学视频上传,模型自动生成中英文字幕,准确识别技术术语和说话人切换。

项目健康度

B
79/100
良好
活跃度人气增长社区文档
活跃度 20/23

距上次更新 7 天

人气 24/25

平台 Star TOP 4% · Forks 4,180

增长 20/25

本周 +10,543 ⭐ · 本月 +42,172 ⭐

社区 7/17

10 位贡献者 · 0 条平台评论

文档 8/10

缺少 1 项内容

在 GitHub 上查看

项目信息

作者 microsoft
来源 GitHub
周期 每周
仓库ID microsoft/VibeVoice
最新提交 2026-04-04 13:33:26
第一收录 2026-04-06 09:00:24
最后更新 2026-04-06 09:00:24

赞赏支持

如果本站对你有帮助,欢迎打赏支持

微信打赏码

微信

支付宝打赏码

支付宝

评论 0

登录 后发表评论

加载评论中...

助手