Blaizzy/mlx-audio - 竞品分析

Swift speech-recognition speech-to-text text-to-speech transformers

6.2k 570

面向苹果芯片的端侧语音人工智能

60%

+58

soniqo/speech-swift

Swift apple-silicon mlx speech-recognition text-to-speech

772 103

面向 Apple Silicon 的 AI 语音工具包 — 基于 MLX 和 CoreML 的 ASR、TTS、语音到语音、VAD 及说话人分离功能。

50%

OpenBMB/VoxCPM

Python speech-synthesis text-to-speech

27.5k 3.1k

VoxCPM：面向上下文感知语音生成与逼真音色克隆的无分词器文本转语音系统

+4.3k

m-bain/whisperX

Python speech-recognition speech-to-text

19.9k 2.1k

WhisperX：具备词级时间戳标注的自动语音识别系统

+17

jianchang512/pyvideotrans

Python speech-to-text text-to-speech

17.9k 2.2k

将视频从一种语言翻译为另一种语言，并嵌入配音与字幕。

+72

huggingface/speech-to-speech

Python speech-synthesis speech-to-text

4.4k 500

语音转语音：致力于构建开源模块化GPT4-o的项目

+35

dograh-hq/dograh

Python speech-to-text text-to-speech

4.0k 797

开源语音代理平台

+1.3k

OpenMOSS/MOSS-TTS

Python multimodal text-to-speech

2.8k 247

MOSS‑TTS 系列是由 MOSI.AI 与 OpenMOSS 团队开发的开源语音与声音生成模型系列。

+904

ggml-org/whisper.cpp

C++ speech-recognition speech-to-text

50.3k 5.6k

OpenAI Whisper模型的C/C++移植版本

+1.0k

NVIDIA/DeepLearningExamples

Jupyter Notebook speech-recognition speech-synthesis

14.8k 3.4k

按模型组织的尖端深度学习脚本——易于在企业级基础设施上进行训练和部署，并具备可复现的准确性与性能。

alphacep/vosk-api

Jupyter Notebook speech-recognition speech-to-text

14.8k 1.7k

适用于Android、iOS、树莓派及服务端的离线语音识别API，支持Python、Java、C#和Node.js开发语言。

k2-fsa/sherpa-onnx

C++ speech-to-text text-to-speech

12.9k 1.5k

基于新一代Kaldi与onnxruntime的离线语音转文字、文字转语音、说话人日志、语音增强、源分离及语音活动检测技术。支持嵌入式系统、Android、iOS、HarmonyOS、树莓派、RISC-V架构、x86_64服务器、WebSocket服务端/客户端，兼容12种编程语言。

+775

rhasspy/piper

C++ speech-synthesis text-to-speech

10.7k 916

一款快速、本地的神经文本转语音系统

+51

openvinotoolkit/openvino

C++ speech-recognition transformers

10.3k 3.2k

OpenVINO™是用于优化和部署AI推理的开源工具套件

+207

espeak-ng/espeak-ng

C speech-synthesis text-to-speech

6.4k 1.2k

eSpeak NG是开源语音合成器，支持上百种语言和口音

+34

argmaxinc/WhisperKit

Swift speech-recognition transformers

6.0k 541

适用于Apple Silicon设备的本地语音识别

+202

MahmoudAshraf97/whisper-diarization

Jupyter Notebook speech-recognition speech-to-text

5.4k 500

基于OpenAI Whisper的说话人日志自动语音识别系统

pluja/whishper

Svelte speech-recognition speech-to-text

3.0k 172

通过网页界面100%本地化地将任意音频转录为文本，翻译并编辑字幕。由whisper模型驱动！

+48

Light-Heart-Labs/DreamServer

Shell speech-to-text text-to-speech

1.9k 283

随处可用的本地AI，人人皆可——涵盖LLM推理、聊天界面、语音、智能体、工作流、RAG及图像生成。无需云端，无需订阅。

+1.4k

rapidaai/voice-ai

Go speech-to-text text-to-speech

710 204

Rapida是一个开源、端到端的语音AI编排平台，用于构建具备音频流、语音识别、语音合成、语音活动检测、多通道集成、智能体状态管理和可观测性的实时对话语音智能体。