speech
话题找到数量
huggingface/transformers
🤗 Transformers:面向文本、视觉、音频及多模态模型的尖端机器学习模型定义框架,支持推理与训练全流程。
unslothai/unsloth
大语言模型微调与强化学习 🦥 以2倍速度训练OpenAI gpt-oss、Qwen3、Llama 4、DeepSeek-R1、Gemma 3,节省70%显存
IDEA-Research/Grounded-Segment-Anything
Grounded SAM:融合Grounding DINO与Segment Anything及Stable Diffusion与Recognize Anything——自动检测、分割并生成万物
NVIDIA-NeMo/NeMo
专为从事大语言模型、多模态和语音人工智能(自动语音识别与文本转语音)的研究人员和开发者打造的可扩展生成式AI框架
modelscope/FunASR
端到端语音识别基础工具包与开源SOTA预训练模型,支持语音识别、语音活动检测、文本后处理等功能。
alphacep/vosk-api
适用于Android、iOS、树莓派及服务端的离线语音识别API,支持Python、Java、C#和Node.js开发语言。
Zackriya-Solutions/meetily
Meetily是一款隐私优先的AI会议助手,基于Rust构建,提供比Parakeet/Whisper快4倍的实时转录、说话人分离及Ollama摘要功能。100%本地处理,无需云端。作为排名第一的自托管开源AI会议记录工具,支持macOS与Windows系统。
Zackriya-Solutions/meeting-minutes
一款免费开源、基于人工智能的自托管实时会议记录与纪要生成工具,可完全在本地设备运行(已支持Mac OS和Windows系统,即将新增Linux支持)https://meetily.zackriya.com/ 这就是meetly ai
Blaizzy/mlx-audio
一个基于苹果MLX框架构建的文本转语音、语音转文本及语音转语音库,可在Apple Silicon芯片上实现高效语音分析。
MahmoudAshraf97/whisper-diarization
基于OpenAI Whisper的说话人日志自动语音识别系统