项目竞品项目
m-bain/whisperX
WhisperX:具备词级时间戳标注的自动语音识别系统
alphacep/vosk-api
适用于Android、iOS、树莓派及服务端的离线语音识别API,支持Python、Java、C#和Node.js开发语言。
ggml-org/whisper.cpp
OpenAI Whisper模型的C/C++移植版本
modelscope/FunASR
端到端语音识别基础工具包与开源SOTA预训练模型,支持语音识别、语音活动检测、文本后处理等功能。
pluja/whishper
通过网页界面100%本地化地将任意音频转录为文本,翻译并编辑字幕。由whisper模型驱动!
Blaizzy/mlx-audio
一个基于苹果MLX框架构建的文本转语音、语音转文本及语音转语音库,可在Apple Silicon芯片上实现高效语音分析。
amicalhq/amical
🎙️ AI Dictation App - Open Source and Local-first ⚡ Type 3x faster, no keyboard needed. 🆓 Powered by open source models, works offline, fast and accurate.
Zackriya-Solutions/meetily
Meetily是一款隐私优先的AI会议助手,基于Rust构建,提供比Parakeet/Whisper快4倍的实时转录、说话人分离及Ollama摘要功能。100%本地处理,无需云端。作为排名第一的自托管开源AI会议记录工具,支持macOS与Windows系统。
Zackriya-Solutions/meeting-minutes
一款免费开源、基于人工智能的自托管实时会议记录与纪要生成工具,可完全在本地设备运行(已支持Mac OS和Windows系统,即将新增Linux支持)https://meetily.zackriya.com/ 这就是meetly ai
argmaxinc/WhisperKit
适用于Apple Silicon设备的本地语音识别
meizhong986/WhisperJAV
ASR/STT字幕生成器。采用Qwen3-ASR、本地LLM、Whisper、TEN-VAD技术,具备针对JAV场景的噪声鲁棒性
huggingface/speech-to-speech
语音转语音:致力于构建开源模块化GPT4-o的项目
k2-fsa/sherpa-onnx
基于新一代Kaldi与onnxruntime的离线语音转文字、文字转语音、说话人日志、语音增强、源分离及语音活动检测技术。支持嵌入式系统、Android、iOS、HarmonyOS、树莓派、RISC-V架构、x86_64服务器、WebSocket服务端/客户端,兼容12种编程语言。
cactus-compute/cactus
在手机、可穿戴设备及AI原生硬件上本地运行人工智能
umlx5h/LLPlayer
专为语言学习打造的媒体播放器,具备双语字幕、AI生成字幕、实时翻译等功能!
相关项目推荐
jackfrued/Python-100-Days
Python - 100天从新手到大师
langchain-ai/langchain
🦜🔗 构建情境感知推理应用程序 🦜🔗
microsoft/generative-ai-for-beginners
21堂课带你入门生成式AI开发
rasbt/LLMs-from-scratch
使用PyTorch从零开始逐步实现类ChatGPT大型语言模型
microsoft/ML-For-Beginners
12周、26节课、52个测验,面向所有人的经典机器学习课程
CompVis/stable-diffusion
潜在文本到图像扩散模型