speech

🤗 Transformers：面向文本、视觉、音频及多模态模型的尖端机器学习模型定义框架，支持推理与训练全流程。

audio deep-learning deepseek

huggingface 开发者

162k

33k

785

+61

排名 #13

7月2日

查看详情

unslothai/unsloth

大语言模型微调与强化学习 🦥 以2倍速度训练OpenAI gpt-oss、Qwen3、Llama 4、DeepSeek-R1、Gemma 3，节省70%显存

agent deepseek fine-tuning

unslothai 开发者

66k

6k

646

+6.1k

排名 #19

6月20日

查看详情

ggml-org/whisper.cpp

OpenAI Whisper模型的C/C++移植版本

inference openai speech-recognition

ggml-org 开发者

51k

5.9k

1k

+1k

排名 #21

7月12日

查看详情

myshell-ai/OpenVoice

MIT与MyShell联合开发的即时语音克隆技术

text-to-speech tts voice-clone

myshell-ai 开发者

36k

4.1k

359

+16

排名 #12

5月3日

查看详情

calesthio/OpenMontage

全球首个开源智能体视频制作系统，集成12条流水线、52种工具及500余项智能体技能，可将您的AI编程助手转变为完整的视频制作工作室。

agent agentic-ai ai

calesthio 开发者

33k

3.9k

350

+25k

排名 #18

7月5日

查看详情

OpenBMB/VoxCPM

VoxCPM：面向上下文感知语音生成与逼真音色克隆的无分词器文本转语音系统

audio deeplearning minicpm

OpenBMB 开发者

30k

3.4k

565

+4.3k

排名 #17

6月17日

查看详情

cjpais/Handy

Rust

完全离线的免费开源可扩展语音转文本应用程序

accessibility cross-platform speech-to-text

cjpais 开发者

26k

2.3k

552

+752

排名 #21

7月14日

查看详情

mozilla-ai/llamafile

用单个文件分发和运行大语言模型。

cross-platform gguf llama-cpp

mozilla-ai 开发者

25k

1.6k

509

+589

排名 #21

7月12日

查看详情

Zackriya-Solutions/meetily

Rust

Meetily是一款隐私优先的AI会议助手，基于Rust构建，提供比Parakeet/Whisper快4倍的实时转录、说话人分离及Ollama摘要功能。100%本地处理，无需云端。作为排名第一的自托管开源AI会议记录工具，支持macOS与Windows系统。

ai ai-meeting-assistant llm

Zackriya-Solutions 开发者

23k

2.5k

484

+7.4k

排名 #15

7月12日

查看详情

screenpipe/screenpipe

Rust

screenpipe将您的电脑转变为个人AI助手，它能知晓您的一切操作。记录、搜索、自动化，全部本地运行，完全私密，尽在您掌控。

agents agi ai

screenpipe 开发者

20k

2k

420

+222

排名 #17

7月15日

查看详情

m-bain/whisperX

WhisperX：具备词级时间戳标注的自动语音识别系统

asr speech speech-recognition

m-bain 开发者

19k

2.1k

536

+17

排名 #9

2月1日

查看详情

modelscope/FunASR

端到端语音识别基础工具包与开源SOTA预训练模型，支持语音识别、语音活动检测、文本后处理等功能。

audio-visual-speech-recognition conformer dfsmn

modelscope 开发者

18k

1.9k

605

+2.1k

排名 #19

6月30日

查看详情

jianchang512/pyvideotrans

将视频从一种语言翻译为另一种语言，并嵌入配音与字幕。

speech-to-text text-to-speech video-transition

jianchang512 开发者

17k

2.2k

308

+72

排名 #12

6月9日

查看详情

IDEA-Research/Grounded-Segment-Anything

Grounded SAM：融合Grounding DINO与Segment Anything及Stable Diffusion与Recognize Anything——自动检测、分割并生成万物

3d-whole-body-pose-estimation automatic-labeling-system caption

IDEA-Research 开发者

17k

1.6k

414

+7

排名 #20

5月28日

查看详情

NVIDIA-NeMo/Speech

一个可扩展的生成式 AI 框架，专为从事大语言模型、多模态及语音 AI（自动语音识别与文本转语音）的研究人员和开发者构建。

asr deeplearning generative-ai

NVIDIA-NeMo 开发者

17k

3.5k

261

+12

排名 #11

6月25日

查看详情

NVIDIA-NeMo/NeMo

专为从事大语言模型、多模态和语音人工智能（自动语音识别与文本转语音）的研究人员和开发者打造的可扩展生成式AI框架

asr deeplearning generative-ai

NVIDIA-NeMo 开发者

17k

3.4k

780

+11

排名 #22

6月12日

查看详情

alphacep/vosk-api

适用于Android、iOS、树莓派及服务端的离线语音识别API，支持Python、Java、C#和Node.js开发语言。

android asr deep-learning

alphacep 开发者

14k

1.7k

475

+9

排名 #15

6月26日

查看详情

NVIDIA/DeepLearningExamples

按模型组织的尖端深度学习脚本——易于在企业级基础设施上进行训练和部署，并具备可复现的准确性与性能。

computer-vision deep-learning drug-discovery

NVIDIA 开发者

14k

3.4k

374

排名 #8

5月16日

查看详情

cjpais/Handy

TypeScript

完全离线的免费开源可扩展语音转文本应用程序

accessibility cross-platform speech-to-text

cjpais 开发者

14k

974

552

+4.2k

排名 #11

2月7日

查看详情

k2-fsa/sherpa-onnx

基于新一代Kaldi与onnxruntime的离线语音转文字、文字转语音、说话人日志、语音增强、源分离及语音活动检测技术。支持嵌入式系统、Android、iOS、HarmonyOS、树莓派、RISC-V架构、x86_64服务器、WebSocket服务端/客户端，兼容12种编程语言。

aarch64 android arm32

k2-fsa 开发者

13k

1.6k

550

+775

排名 #22

7月15日

查看详情

supertone-inc/supertonic

Swift

闪电般快速、设备端运行的多语言TTS——通过ONNX原生执行。

cpp csharp go

supertone-inc 开发者

13k

1.4k

414

+8.2k

排名 #15

7月15日

查看详情

rhasspy/piper

一款快速、本地的神经文本转语音系统

speech-synthesis text-to-speech tts

rhasspy 开发者

10k

916

453

+51

排名 #20

3月8日

查看详情

openvinotoolkit/openvino

OpenVINO™是用于优化和部署AI推理的开源工具套件

ai computer-vision deep-learning

openvinotoolkit 开发者

10k

3.3k

718

+207

排名 #22

7月15日

查看详情

pyannote/pyannote-audio