ecog

话题找到数量

huggingface/transformers

🤗 Transformers:面向文本、视觉、音频及多模态模型的尖端机器学习模型定义框架,支持推理与训练全流程。

156k
32k
355
+50
排名 #8
2月11日
查看详情

ggml-org/whisper.cpp

OpenAI Whisper模型的C/C++移植版本

48k
5.4k
465
+1k
排名 #20
4月5日
查看详情

paperless-ngx/paperless-ngx

社区支持的超级文档管理系统:扫描、索引和归档所有文档

36k
2.3k
229
+37
排名 #5
2月1日
查看详情

serengil/deepface

一个轻量级的Python人脸识别与面部属性分析库,支持年龄、性别、情绪和种族识别。

22k
3k
214
+36
排名 #17
2月2日
查看详情

m-bain/whisperX

WhisperX:具备词级时间戳标注的自动语音识别系统

19k
2.1k
217
+17
排名 #9
2月1日
查看详情

antlr/antlr4

ANTLR(语言识别另一工具)是强大的解析器生成器,用于读取、处理、执行或翻译结构化文本及二进制文件。

18k
3.4k
286
+4
排名 #22
3月31日
查看详情

NVIDIA-NeMo/NeMo

专为从事大语言模型、多模态和语音人工智能(自动语音识别与文本转语音)的研究人员和开发者打造的可扩展生成式AI框架

16k
3.3k
290
+11
排名 #7
2月19日
查看详情

modelscope/FunASR

端到端语音识别基础工具包与开源SOTA预训练模型,支持语音识别、语音活动检测、文本后处理等功能。

15k
1.6k
181
+11
排名 #12
2月28日
查看详情

alphacep/vosk-api

适用于Android、iOS、树莓派及服务端的离线语音识别API,支持Python、Java、C#和Node.js开发语言。

14k
1.7k
164
+2
排名 #15
3月7日
查看详情

opendataloader-project/opendataloader-pdf

面向AI就绪数据的PDF解析器。

13k
1.1k
198
+9.2k
排名 #5
4月9日
查看详情

Anionex/banana-slides

基于nano banana pro🍌的原生AI PPT生成应用,迈向真正的"氛围PPT";支持上传任意模板图片;上传任意素材并智能解析;通过一句话/大纲/页面描述自动生成PPT;口头修改指定区域、一键导出可编辑PPT文件

12k
1.5k
102
+45
排名 #15
2月28日
查看详情

T8RIN/ImageToolbox

🖼️ 图像工具箱是一款支持高级图像处理的强大应用,提供从基础裁剪绘制到滤镜、OCR及多种图像处理功能的数十种特性

12k
528
213
+24
排名 #17
3月21日
查看详情

openvinotoolkit/openvino

OpenVINO™是用于优化和部署AI推理的开源工具套件

10k
3.2k
263
+207
排名 #22
4月9日
查看详情

pyannote/pyannote-audio

说话人日志神经构建模块:语音活动检测、说话人变更检测、重叠语音检测、说话人嵌入

9.6k
1k
173
+171
排名 #17
4月6日
查看详情

all-contributors/allcontributors.org

✨ 全贡献者机器人网站与文档。认可所有贡献者,而不仅仅是推送代码的人 ✨

8k
1.7k
127
排名 #21
4月5日
查看详情

exadel-inc/CompreFace

领先的免费开源人脸识别系统

7.8k
1.1k
183
+572
排名 #16
2月24日
查看详情

Blaizzy/mlx-audio

一个基于苹果MLX框架构建的文本转语音、语音转文本及语音转语音库,可在Apple Silicon芯片上实现高效语音分析。

6.3k
493
211
+2k
排名 #13
3月15日
查看详情

argmaxinc/WhisperKit

适用于Apple Silicon设备的本地语音识别

6k
541
190
+202
排名 #21
4月8日
查看详情

MahmoudAshraf97/whisper-diarization

基于OpenAI Whisper的说话人日志自动语音识别系统

5.4k
500
125
+4
排名 #16
3月18日
查看详情

vas3k/TaxHacker

自托管人工智能会计应用。支持收据、发票及交易的LLM智能分析器,具备自定义提示词与分类功能

4.7k
725
156
+2.2k
排名 #10
4月5日
查看详情

JohnSnowLabs/spark-nlp

顶尖自然语言处理技术

4.1k
741
92
+2
排名 #10
4月7日
查看详情

run-llama/liteparse

一款快速、实用且开源的文件解析工具

4.1k
264
48
+75
排名 #8
4月9日
查看详情

breezedeus/Pix2Text

一款基于SMALL模型的开源Python3工具,能够识别图像中的版面布局、表格、数学公式以及文本,并将其转换为Markdown格式。作为Mathpix的免费替代方案,它实现了视觉内容到文本表征的无缝转换,并支持80多种语言。

3k
257
186
+10
排名 #4
1月28日
查看详情

pluja/whishper

通过网页界面100%本地化地将任意音频转录为文本,翻译并编辑字幕。由whisper模型驱动!

3k
172
205
+48
排名 #18
3月31日
查看详情
助手