项目竞品
共找到 20 个竞品m-bain/whisperX
WhisperX:具备词级时间戳标注的自动语音识别系统
OpenBMB/VoxCPM
VoxCPM:面向上下文感知语音生成与逼真音色克隆的无分词器文本转语音系统
huggingface/speech-to-speech
语音转语音:致力于构建开源模块化GPT4-o的项目
huggingface/transformers
🤗 Transformers:面向文本、视觉、音频及多模态模型的尖端机器学习模型定义框架,支持推理与训练全流程。
unslothai/unsloth
大语言模型微调与强化学习 🦥 以2倍速度训练OpenAI gpt-oss、Qwen3、Llama 4、DeepSeek-R1、Gemma 3,节省70%显存
NVIDIA-NeMo/NeMo
专为从事大语言模型、多模态和语音人工智能(自动语音识别与文本转语音)的研究人员和开发者打造的可扩展生成式AI框架
OpenBMB/UltraRAG
UltraRAG v3:一个用于构建复杂创新RAG管道的低代码MCP框架
Blaizzy/mlx-audio-swift
一个用于在Apple Silicon上使用MLX进行音频处理的模块化Swift SDK
ggml-org/whisper.cpp
OpenAI Whisper模型的C/C++移植版本
rhasspy/piper
一款快速、本地的神经文本转语音系统
k2-fsa/sherpa-onnx
基于新一代Kaldi与onnxruntime的离线语音转文字、文字转语音、说话人日志、语音增强、源分离及语音活动检测技术。支持嵌入式系统、Android、iOS、HarmonyOS、树莓派、RISC-V架构、x86_64服务器、WebSocket服务端/客户端,兼容12种编程语言。
openvinotoolkit/openvino
OpenVINO™是用于优化和部署AI推理的开源工具套件
espeak-ng/espeak-ng
eSpeak NG是开源语音合成器,支持上百种语言和口音
argmaxinc/WhisperKit
适用于Apple Silicon设备的本地语音识别
pluja/whishper
通过网页界面100%本地化地将任意音频转录为文本,翻译并编辑字幕。由whisper模型驱动!
microsoft/generative-ai-for-beginners
21堂课带你入门生成式AI开发
Mintplex-Labs/anything-llm
内置RAG、AI智能体、无代码智能体构建器、MCP兼容等功能的桌面与Docker一体化AI应用
google-ai-edge/mediapipe
面向直播与流媒体的跨平台可定制机器学习解决方案
bytedance/UI-TARS-desktop
开源多模态AI智能体堆栈,连接尖端AI模型与智能体基础设施
deepset-ai/haystack
AI 编排框架,用于构建可定制、生产就绪的 LLM 应用。将组件(模型、向量数据库、文件转换器)连接到可与数据交互的流水线或智能体。凭借高级检索方法,特别适用于构建 RAG、问答系统、语义搜索或对话式聊天机器人
相关项目推荐
public-apis/public-apis
免费API资源汇总列表
EbookFoundation/free-programming-books
📚 免费提供的编程书籍
donnemartin/system-design-primer
学习如何设计大规模系统。为系统设计面试做准备。包含Anki记忆卡片。
vinta/awesome-python
精心整理的优质Python框架、库、软件及资源列表
TheAlgorithms/Python
所有算法均使用Python实现
Significant-Gravitas/AutoGPT
AutoGPT致力于实现人人可用的普惠AI,让每个人都能使用和构建AI。我们的使命是提供工具,让您专注于重要事务。