超轻量TTS引擎Supertonic：设备端语音合成迎来Swift原生时代

今天，一个名为Supertonic的Swift库在GitHub上单日新增1128星，总星数突破5400。它宣称能在iPhone上以毫秒级速度运行多语言文本转语音，完全离线、无需GPU，甚至不依赖Core ML。在云端TTS成本高企、隐私监管趋严的当下，Supertonic试图证明：设备端语音合成可以既快又好。

这个项目在做什么

Supertonic是一个纯Swift编写的多语言TTS（文本转语音）引擎，通过ONNX Runtime在设备端原生执行。它解决的问题很明确：现有TTS方案要么依赖云端（延迟高、有隐私风险），要么在设备端性能不足或集成复杂。Supertonic将模型推理完全放在本地，支持英语、中文、日语、韩语等多种语言，且无需GPU加速。

为何此刻被关注

今天Supertonic的爆发并非偶然。过去一周，该项目已累计增长5879星，其中5月17日单日峰值达4565星。触发因素可能是开发者社区在Reddit和Hacker News上的讨论，以及一条演示其在M1 MacBook上实时合成语音的推文被广泛转发。此外，苹果在WWDC前后对设备端AI的强调，也让Swift生态中的此类项目获得了更多关注。

技术上有何不同

与常见的TTS方案相比，Supertonic有两个关键差异：

纯Swift + ONNX：不依赖Core ML或TensorFlow Lite，而是直接使用ONNX Runtime for Swift。这意味着模型转换路径更简单，且ONNX Runtime在CPU上的优化使其在无GPU设备上也能高效运行。
多语言原生支持：项目内置了多种语言的预训练模型，用户无需自行训练或转换。根据README，其模型大小在50-200MB之间，远小于云端模型。

与Coqui TTS（Python）或eSpeak（C++）相比，Supertonic的集成成本极低——只需添加一个Swift Package依赖。