项目竞品项目
m-bain/whisperX
WhisperX:具备词级时间戳标注的自动语音识别系统
jianchang512/pyvideotrans
将视频从一种语言翻译为另一种语言,并嵌入配音与字幕。
OpenBMB/VoxCPM
VoxCPM:面向上下文感知语音生成与逼真音色克隆的无分词器文本转语音系统
huggingface/speech-to-speech
语音转语音:致力于构建开源模块化GPT4-o的项目
ggml-org/whisper.cpp
OpenAI Whisper模型的C/C++移植版本
alphacep/vosk-api
适用于Android、iOS、树莓派及服务端的离线语音识别API,支持Python、Java、C#和Node.js开发语言。
k2-fsa/sherpa-onnx
基于新一代Kaldi与onnxruntime的离线语音转文字、文字转语音、说话人日志、语音增强、源分离及语音活动检测技术。支持嵌入式系统、Android、iOS、HarmonyOS、树莓派、RISC-V架构、x86_64服务器、WebSocket服务端/客户端,兼容12种编程语言。
rhasspy/piper
一款快速、本地的神经文本转语音系统
openvinotoolkit/openvino
OpenVINO™是用于优化和部署AI推理的开源工具套件
espeak-ng/espeak-ng
eSpeak NG是开源语音合成器,支持上百种语言和口音
argmaxinc/WhisperKit
适用于Apple Silicon设备的本地语音识别
MahmoudAshraf97/whisper-diarization
基于OpenAI Whisper的说话人日志自动语音识别系统
pluja/whishper
通过网页界面100%本地化地将任意音频转录为文本,翻译并编辑字幕。由whisper模型驱动!
rapidaai/voice-ai
Rapida是一个开源、端到端的语音AI编排平台,用于构建具备音频流、语音识别、语音合成、语音活动检测、多通道集成、智能体状态管理和可观测性的实时对话语音智能体。
Blaizzy/mlx-vlm
MLX-VLM:基于MLX在Mac上进行视觉语言模型推理与微调的工具包
Blaizzy/mlx-audio-swift
一个用于在Apple Silicon上使用MLX进行音频处理的模块化Swift SDK
相关项目推荐
public-apis/public-apis
免费API资源汇总列表
EbookFoundation/free-programming-books
📚 免费提供的编程书籍
donnemartin/system-design-primer
学习如何设计大规模系统。为系统设计面试做准备。包含Anki记忆卡片。
vinta/awesome-python
精心整理的优质Python框架、库、软件及资源列表
TheAlgorithms/Python
所有算法均使用Python实现
Significant-Gravitas/AutoGPT
AutoGPT致力于实现人人可用的普惠AI,让每个人都能使用和构建AI。我们的使命是提供工具,让您专注于重要事务。