speech

共找到 22 个相关项目

huggingface/transformers

🤗 Transformers:面向文本、视觉、音频及多模态模型的尖端机器学习模型定义框架,支持推理与训练全流程。

156k
32k
156
+50
排名 #8
2月11日
查看详情

unslothai/unsloth

大语言模型微调与强化学习 🦥 以2倍速度训练OpenAI gpt-oss、Qwen3、Llama 4、DeepSeek-R1、Gemma 3,节省70%显存

52k
4.4k
169
+538
排名 #19
2月22日
查看详情

ggml-org/whisper.cpp

OpenAI Whisper模型的C/C++移植版本

46k
5.2k
129
+1k
排名 #20
2月24日
查看详情

m-bain/whisperX

WhisperX:具备词级时间戳标注的自动语音识别系统

19k
2.1k
127
+17
排名 #9
2月1日
查看详情

NVIDIA-NeMo/NeMo

专为从事大语言模型、多模态和语音人工智能(自动语音识别与文本转语音)的研究人员和开发者打造的可扩展生成式AI框架

16k
3.3k
113
+11
排名 #7
2月19日
查看详情

cjpais/Handy

完全离线的免费开源可扩展语音转文本应用程序

15k
1.1k
126
+125
排名 #10
2月22日
查看详情

cjpais/Handy

完全离线的免费开源可扩展语音转文本应用程序

14k
974
126
+4.2k
排名 #11
2月7日
查看详情

rhasspy/piper

一款快速、本地的神经文本转语音系统

10k
911
108
+51
排名 #20
2月23日
查看详情

k2-fsa/sherpa-onnx

基于新一代Kaldi与onnxruntime的离线语音转文字、文字转语音、说话人日志、语音增强、源分离及语音活动检测技术。支持嵌入式系统、Android、iOS、HarmonyOS、树莓派、RISC-V架构、x86_64服务器、WebSocket服务端/客户端,兼容12种编程语言。

10k
1.2k
98
+34
排名 #21
2月13日
查看详情

Zackriya-Solutions/meeting-minutes

一款免费开源、基于人工智能的自托管实时会议记录与纪要生成工具,可完全在本地设备运行(已支持Mac OS和Windows系统,即将新增Linux支持)https://meetily.zackriya.com/ 这就是meetly ai

9.8k
882
104
+143
排名 #19
2月15日
查看详情

openvinotoolkit/openvino

OpenVINO™是用于优化和部署AI推理的开源工具套件

9.7k
3.1k
113
+207
排名 #22
2月24日
查看详情

pyannote/pyannote-audio

说话人日志神经构建模块:语音活动检测、说话人变更检测、重叠语音检测、说话人嵌入

9.2k
1k
79
+56
排名 #17
2月21日
查看详情

espeak-ng/espeak-ng

eSpeak NG是开源语音合成器,支持上百种语言和口音

6.1k
1.2k
85
+34
排名 #21
2月6日
查看详情

OpenBMB/VoxCPM

VoxCPM:面向上下文感知语音生成与逼真音色克隆的无分词器文本转语音系统

5.9k
707
131
+1.5k
排名 #11
2月10日
查看详情

Blaizzy/mlx-audio

一个基于苹果MLX框架构建的文本转语音、语音转文本及语音转语音库,可在Apple Silicon芯片上实现高效语音分析。

5.7k
411
99
+2k
排名 #9
2月1日
查看详情

argmaxinc/WhisperKit

适用于Apple Silicon设备的本地语音识别

5.7k
506
110
+188
排名 #21
2月23日
查看详情

huggingface/speech-to-speech

语音转语音:致力于构建开源模块化GPT4-o的项目

4.4k
500
86
+35
排名 #15
2月8日
查看详情

cactus-compute/cactus

在手机、可穿戴设备及AI原生硬件上本地运行人工智能

4.3k
313
102
+10
排名 #1
2月22日
查看详情

stakira/OpenUtau

开放歌声合成平台/开源UTAU后继项目

3.5k
448
123
+3
排名 #14
2月9日
查看详情

pluja/whishper

通过网页界面100%本地化地将任意音频转录为文本,翻译并编辑字幕。由whisper模型驱动!

2.9k
167
96
+12
排名 #12
2月4日
查看详情

SakiRinn/LiveCaptions-Translator

基于Windows LiveCaptions的轻量级强大实时音频/语音翻译工具

2.3k
162
69
+378
排名 #15
1月31日
查看详情

amicalhq/amical

🎙️ AI Dictation App - Open Source and Local-first ⚡ Type 3x faster, no keyboard needed. 🆓 Powered by open source models, works offline, fast and accurate.

773
74
90
+8
排名 #6
2月15日
查看详情

Blaizzy/mlx-audio-swift

一个用于在Apple Silicon上使用MLX进行音频处理的模块化Swift SDK

209
26
88
+82
排名 #10
2月15日
查看详情
助手