项目竞品

共找到 20 个竞品
m-bain

m-bain/whisperX

19.9k 2.1k

WhisperX:具备词级时间戳标注的自动语音识别系统

Python speech-recognition speech-to-text
相似度
22%
+17
OpenBMB

OpenBMB/VoxCPM

5.9k 707

VoxCPM:面向上下文感知语音生成与逼真音色克隆的无分词器文本转语音系统

Python speech-synthesis text-to-speech
相似度
22%
+1.5k
huggingface

huggingface/speech-to-speech

4.4k 500

语音转语音:致力于构建开源模块化GPT4-o的项目

Python speech-synthesis speech-to-text
相似度
22%
+35
huggingface

huggingface/transformers

156.4k 32.0k

🤗 Transformers:面向文本、视觉、音频及多模态模型的尖端机器学习模型定义框架,支持推理与训练全流程。

Python speech-recognition
相似度
11%
+50
unslothai

unslothai/unsloth

52.6k 4.4k

大语言模型微调与强化学习 🦥 以2倍速度训练OpenAI gpt-oss、Qwen3、Llama 4、DeepSeek-R1、Gemma 3,节省70%显存

Python text-to-speech
相似度
11%
+538
NVIDIA-NeMo

NVIDIA-NeMo/NeMo

16.8k 3.3k

专为从事大语言模型、多模态和语音人工智能(自动语音识别与文本转语音)的研究人员和开发者打造的可扩展生成式AI框架

Python speech-synthesis
相似度
11%
+11
OpenBMB

OpenBMB/UltraRAG

5.3k 377

UltraRAG v3:一个用于构建复杂创新RAG管道的低代码MCP框架

Python multimodal
相似度
11%
+2.6k
Blaizzy

Blaizzy/mlx-audio-swift

209 26

一个用于在Apple Silicon上使用MLX进行音频处理的模块化Swift SDK

Swift mlx speech-to-text text-to-speech
相似度
33%
+82
ggml-org

ggml-org/whisper.cpp

47.0k 5.2k

OpenAI Whisper模型的C/C++移植版本

C++ speech-recognition speech-to-text
相似度
22%
+1.0k
rhasspy

rhasspy/piper

10.6k 911

一款快速、本地的神经文本转语音系统

C++ speech-synthesis text-to-speech
相似度
22%
+51
k2-fsa

k2-fsa/sherpa-onnx

10.3k 1.2k

基于新一代Kaldi与onnxruntime的离线语音转文字、文字转语音、说话人日志、语音增强、源分离及语音活动检测技术。支持嵌入式系统、Android、iOS、HarmonyOS、树莓派、RISC-V架构、x86_64服务器、WebSocket服务端/客户端,兼容12种编程语言。

C++ speech-to-text text-to-speech
相似度
22%
+34
openvinotoolkit

openvinotoolkit/openvino

9.7k 3.1k

OpenVINO™是用于优化和部署AI推理的开源工具套件

C++ speech-recognition transformers
相似度
22%
+207
espeak-ng

espeak-ng/espeak-ng

6.1k 1.2k

eSpeak NG是开源语音合成器,支持上百种语言和口音

C speech-synthesis text-to-speech
相似度
22%
+34
argmaxinc

argmaxinc/WhisperKit

5.7k 506

适用于Apple Silicon设备的本地语音识别

Swift speech-recognition transformers
相似度
22%
+188
pluja

pluja/whishper

2.9k 167

通过网页界面100%本地化地将任意音频转录为文本,翻译并编辑字幕。由whisper模型驱动!

Svelte speech-recognition speech-to-text
相似度
22%
+12
microsoft

microsoft/generative-ai-for-beginners

107.0k 57.3k

21堂课带你入门生成式AI开发

Jupyter Notebook transformers
相似度
11%
+414
Mintplex-Labs

Mintplex-Labs/anything-llm

55.0k 5.9k

内置RAG、AI智能体、无代码智能体构建器、MCP兼容等功能的桌面与Docker一体化AI应用

JavaScript multimodal
相似度
11%
+64
google-ai-edge

google-ai-edge/mediapipe

33.6k 5.8k

面向直播与流媒体的跨平台可定制机器学习解决方案

C++ audio-processing
相似度
11%
+907
bytedance

bytedance/UI-TARS-desktop

27.4k 2.7k

开源多模态AI智能体堆栈,连接尖端AI模型与智能体基础设施

TypeScript multimodal
相似度
11%
+4.8k
deepset-ai

deepset-ai/haystack

24.3k 2.6k

AI 编排框架,用于构建可定制、生产就绪的 LLM 应用。将组件(模型、向量数据库、文件转换器)连接到可与数据交互的流水线或智能体。凭借高级检索方法,特别适用于构建 RAG、问答系统、语义搜索或对话式聊天机器人

MDX transformers
相似度
11%
+319
助手