VoxCPM2 发布：开源 TTS 的“GPT 时刻”来了？

今天，OpenBMB 正式开源 VoxCPM2，一个 2B 参数、支持 30 种语言、可语音设计、可控克隆的端到端 TTS 模型。单日 GitHub Stars 增长超 1800，背后是社区对“无分词器”架构和 48kHz 高清输出的强烈反响。它能否像 Whisper 之于 ASR 一样，定义开源 TTS 的新标准？

这个项目在做什么

VoxCPM 是一个“无分词器”（tokenizer-free）的文本转语音系统。传统 TTS 需要先将音频离散化为 token，再通过 vocoder 合成，而 VoxCPM 直接生成连续的语音表征，绕过了离散化带来的信息损失。V2 版本基于 MiniCPM-4 骨干网络，训练数据超过 200 万小时，支持 30 种语言和多种中文方言。

核心能力有三：

语音设计：仅凭自然语言描述（如“一位 30 岁男性，语速稍快，带点兴奋”）即可生成全新声音，无需任何参考音频。
可控克隆：从短参考音频中克隆音色，并可通过风格引导控制情感、语速等。
终极克隆：提供参考音频及其文本，模型能无缝延续，保留所有声音细节。

为何此刻被关注

本期新增 1,815 Stars，单日峰值曾达 4,136。爆发点很明确：2026 年 4 月 19 日 VoxCPM2 正式发布，同时开放了权重、文档和在线 Playground。社区在 Reddit、Twitter 上大量讨论，尤其是“语音设计”功能——无需参考音频即可创造新声音，这在开源 TTS 中极为罕见。

此外，项目提供了 Nano-vLLM 和 vLLM-Omni 两种生产级推理方案，RTF 低至 0.13（RTX 4090），并支持 OpenAI 兼容 API。这意味着开发者可以像调用 GPT-4o 一样调用 VoxCPM2，大幅降低了部署门槛。

技术上有何不同

与 Coqui TTS、XTTS 等主流开源方案相比，VoxCPM2 的“无分词器”设计是根本差异。XTTS 使用离散化 token，在音色克隆时容易出现“机械感”；而 VoxCPM 的连续表征能保留更多自然韵律。

另一个亮点是 AudioVAE V2 的非对称编解码设计：接受 16kHz 参考音频，直接输出 48kHz 高质量音频，内置超分辨率。这省去了外挂 upsampler 的麻烦，也减少了级联误差。

在可控性上，VoxCPM2 的“语音设计”功能类似 ElevenLabs 的 Voice Design，但完全开源。用户只需写一段描述，模型就能生成符合描述的声音，这为创意内容生产打开了新空间。

谁应该用它

语音应用开发者：需要快速集成多语言 TTS 到产品中，尤其是需要定制声音（如虚拟主播、有声书）的场景。VoxCPM2 的 OpenAI 兼容 API 和低 RTF 使其适合生产部署。
内容创作者：播客、视频配音、游戏角色配音等。语音设计功能允许他们创造独特声音，无需雇佣配音演员。
研究者：对端到端 TTS、无分词器架构感兴趣的研究人员。项目完全开源，可在此基础上微调或改进。

局限与开放问题

尽管 VoxCPM2 令人印象深刻，但仍有不足：

中文方言支持有限：虽然列出了 9 种方言，但实际效果可能不如标准普通话稳定。
长文本合成：目前未明确说明最大音频时长，长文本可能面临上下文窗口限制。
计算资源：2B 参数模型在消费级 GPU 上实时运行需要 RTX 4090 级别，低端设备无法本地部署。
伦理风险：语音克隆技术可能被滥用，项目虽开源但未内置水印或检测机制。