text-to-speech

unslothai/unsloth

Python

大语言模型微调与强化学习 🦥 以2倍速度训练OpenAI gpt-oss、Qwen3、Llama 4、DeepSeek-R1、Gemma 3，节省70%显存

agent deepseek fine-tuning

unslothai 开发者

66k

6k

636

+6.1k

排名 #19

6月20日

查看详情

myshell-ai/OpenVoice

Python

MIT与MyShell联合开发的即时语音克隆技术

text-to-speech tts voice-clone

myshell-ai 开发者

36k

4.1k

355

+16

排名 #12

5月3日

查看详情

calesthio/OpenMontage

Python

全球首个开源智能体视频制作系统，集成12条流水线、52种工具及500余项智能体技能，可将您的AI编程助手转变为完整的视频制作工作室。

agent agentic-ai ai

calesthio 开发者

33k

3.9k

345

+25k

排名 #18

7月5日

查看详情

OpenBMB/VoxCPM

Python

VoxCPM：面向上下文感知语音生成与逼真音色克隆的无分词器文本转语音系统

audio deeplearning minicpm

OpenBMB 开发者

30k

3.4k

562

+4.3k

排名 #17

6月17日

查看详情

jianchang512/pyvideotrans

Python

将视频从一种语言翻译为另一种语言，并嵌入配音与字幕。

speech-to-text text-to-speech video-transition

jianchang512 开发者

17k

2.2k

301

+72

排名 #12

6月9日

查看详情

k2-fsa/sherpa-onnx

C++

基于新一代Kaldi与onnxruntime的离线语音转文字、文字转语音、说话人日志、语音增强、源分离及语音活动检测技术。支持嵌入式系统、Android、iOS、HarmonyOS、树莓派、RISC-V架构、x86_64服务器、WebSocket服务端/客户端，兼容12种编程语言。

aarch64 android arm32

k2-fsa 开发者

13k

1.6k

550

+775

排名 #22

7月15日

查看详情

supertone-inc/supertonic

Swift

闪电般快速、设备端运行的多语言TTS——通过ONNX原生执行。

cpp csharp go

supertone-inc 开发者

13k

1.4k

413

+8.2k

排名 #15

7月15日

查看详情

rhasspy/piper

C++

一款快速、本地的神经文本转语音系统

speech-synthesis text-to-speech tts

rhasspy 开发者

10k

916

450

+51

排名 #20

3月8日

查看详情

espeak-ng/espeak-ng

C

eSpeak NG是开源语音合成器，支持上百种语言和口音

android espeak espeak-ng

espeak-ng 开发者

6.6k

1.3k

455

+34

排名 #21

7月12日

查看详情

Blaizzy/mlx-audio

Python

一个基于苹果MLX框架构建的文本转语音、语音转文本及语音转语音库，可在Apple Silicon芯片上实现高效语音分析。

apple-silicon audio-processing mlx

Blaizzy 开发者

6.3k

493

518

+2k

排名 #13

3月15日

查看详情

argmaxinc/argmax-oss-swift

Swift

面向苹果芯片的端侧语音人工智能

inference ios macos

argmaxinc 开发者

6.3k

584

278

+58

排名 #16

7月13日

查看详情

dograh-hq/dograh

Python

开源语音代理平台

ai ai-agents conversational-ai

dograh-hq 开发者

4k

797

354

+1.3k

排名 #17

5月31日

查看详情

Osmantic/ODS

Shell

将您的PC、Mac或Linux设备转变为AI服务器，支持大语言模型推理、聊天界面、语音、智能体、工作流、RAG及图像生成。

ai-agents amd comfyui

Osmantic 开发者

3.1k

449

114

+391

排名 #12

7月15日

查看详情

OpenMOSS/MOSS-TTS

Python

MOSS‑TTS 系列是由 MOSI.AI 与 OpenMOSS 团队开发的开源语音与声音生成模型系列。

audio audio-tokenizer llm

OpenMOSS 开发者

2.8k

247

273

+904

排名 #21

5月31日

查看详情

Light-Heart-Labs/ODS

Shell

将您的PC、Mac或Linux设备转变为AI服务器，支持LLM推理、聊天界面、语音、智能体、工作流、RAG及图像生成。

ai-agents amd comfyui

Light-Heart-Labs 开发者

2.5k

374

115

+595

排名 #13

7月1日

查看详情

Light-Heart-Labs/DreamServer

Shell

随处可用的本地AI，人人皆可——涵盖LLM推理、聊天界面、语音、智能体、工作流、RAG及图像生成。无需云端，无需订阅。

ai-agents amd comfyui

Light-Heart-Labs 开发者

2.3k

356

320

+1.4k

排名 #15

6月27日

查看详情

fikrikarim/parlor

HTML

设备端实时多模态AI。与完全运行在您本机上的AI进行自然的语音和视觉对话，由Gemma 4 E2B和Kokoro驱动。

apple-silicon gemma kokoro

fikrikarim 开发者

1.9k

232

97

+3

排名 #9

7月4日

查看详情

Light-Heart-Labs/DreamServer

Python

随处可用的本地AI，人人皆可——涵盖LLM推理、聊天界面、语音、智能体、工作流、RAG及图像生成。无需云端，无需订阅。

ai-agents amd comfyui

Light-Heart-Labs 开发者

1.5k

223

320

+458

排名 #12

5月18日

查看详情

soniqo/speech-swift

Swift

面向 Apple Silicon 的 AI 语音工具包 — 基于 MLX 和 CoreML 的 ASR、TTS、语音到语音、VAD 及说话人分离功能。

apple-silicon asr coreml

soniqo 开发者

977

122

241

+22

排名 #16

7月4日

查看详情

rapidaai/voice-ai

Go

Rapida是一个开源、端到端的语音AI编排平台，用于构建具备音频流、语音识别、语音合成、语音活动检测、多通道集成、智能体状态管理和可观测性的实时对话语音智能体。

agent-framework ai-voice ai-voice-agent

rapidaai 开发者

710

204

476

+13

排名 #16

4月9日

查看详情

Blaizzy/mlx-audio-swift

Swift

一个用于在Apple Silicon上使用MLX进行音频处理的模块化Swift SDK

mlx mlx-audio mlx-audio-swift

Blaizzy 开发者

571

79

418

+161

排名 #16

4月15日

查看详情

text-to-speech - 主题项目

text-to-speech - 主题项目

每日趋势

每周趋势

每月趋势

趋势分析

unslothai/unsloth

myshell-ai/OpenVoice

calesthio/OpenMontage

OpenBMB/VoxCPM

jianchang512/pyvideotrans

k2-fsa/sherpa-onnx

supertone-inc/supertonic

rhasspy/piper

espeak-ng/espeak-ng

Blaizzy/mlx-audio

argmaxinc/argmax-oss-swift

dograh-hq/dograh

Osmantic/ODS

OpenMOSS/MOSS-TTS

Light-Heart-Labs/ODS

Light-Heart-Labs/DreamServer

fikrikarim/parlor

Light-Heart-Labs/DreamServer

soniqo/speech-swift

rapidaai/voice-ai

Blaizzy/mlx-audio-swift

TrendForge 助手