ecog

huggingface/transformers

Python

🤗 Transformers：面向文本、视觉、音频及多模态模型的尖端机器学习模型定义框架，支持推理与训练全流程。

audio deep-learning deepseek

huggingface 开发者

160k

33k

601

+50

排名 #13

5月12日

查看详情

ggml-org/whisper.cpp

C++

OpenAI Whisper模型的C/C++移植版本

inference openai speech-recognition

ggml-org 开发者

50k

5.6k

905

+1k

排名 #21

6月1日

查看详情

paperless-ngx/paperless-ngx

Python

社区支持的超级文档管理系统：扫描、索引和归档所有文档

angular archiving django

paperless-ngx 开发者

41k

2.8k

423

+611

排名 #12

5月27日

查看详情

opendataloader-project/opendataloader-pdf

Java

面向AI就绪数据的PDF解析器。

a11y accessibility ai

opendataloader-project 开发者

24k

2.2k

338

+9.2k

排名 #10

6月7日

查看详情

serengil/deepface

Python

一个轻量级的Python人脸识别与面部属性分析库，支持年龄、性别、情绪和种族识别。

age-prediction arcface deep-learning

serengil 开发者

22k

3k

404

+36

排名 #17

2月2日

查看详情

m-bain/whisperX

Python

WhisperX：具备词级时间戳标注的自动语音识别系统

asr speech speech-recognition

m-bain 开发者

19k

2.1k

420

+17

排名 #9

2月1日

查看详情

antlr/antlr4

Java

ANTLR（语言识别另一工具）是强大的解析器生成器，用于读取、处理、执行或翻译结构化文本及二进制文件。

antlr antlr4 cpp

antlr 开发者

18k

3.4k

572

+13

排名 #22

5月27日

查看详情

pot-app/pot-desktop

JavaScript

🌈 一款跨平台的划词翻译与OCR软件

linux macos ocr

pot-app 开发者

18k

907

244

+36

排名 #9

6月4日

查看详情

modelscope/FunASR

Python

端到端语音识别基础工具包与开源SOTA预训练模型，支持语音识别、语音活动检测、文本后处理等功能。

audio-visual-speech-recognition conformer dfsmn

modelscope 开发者

17k

1.8k

462

+705

排名 #19

6月7日

查看详情

NVIDIA-NeMo/NeMo

Python

专为从事大语言模型、多模态和语音人工智能（自动语音识别与文本转语音）的研究人员和开发者打造的可扩展生成式AI框架

asr deeplearning generative-ai

NVIDIA-NeMo 开发者

17k

3.4k

601

+11

排名 #13

5月15日

查看详情

NVIDIA/DeepLearningExamples

Jupyter Notebook

按模型组织的尖端深度学习脚本——易于在企业级基础设施上进行训练和部署，并具备可复现的准确性与性能。

computer-vision deep-learning drug-discovery

NVIDIA 开发者

14k

3.4k

225

排名 #8

5月16日

查看详情

alphacep/vosk-api

Jupyter Notebook

适用于Android、iOS、树莓派及服务端的离线语音识别API，支持Python、Java、C#和Node.js开发语言。

android asr deep-learning

alphacep 开发者

14k

1.7k

367

+9

排名 #15

5月30日

查看详情

Anionex/banana-slides

TypeScript

基于nano banana pro🍌的原生AI PPT生成应用，迈向真正的"氛围PPT"；支持上传任意模板图片；上传任意素材并智能解析；通过一句话/大纲/页面描述自动生成PPT；口头修改指定区域、一键导出可编辑PPT文件

ai-ppt-maker ai-slide-builder ai-slides

Anionex 开发者

12k

1.5k

290

+45

排名 #15

2月28日

查看详情

T8RIN/ImageToolbox

Kotlin

🖼️ 图像工具箱是一款支持高级图像处理的强大应用，提供从基础裁剪绘制到滤镜、OCR及多种图像处理功能的数十种特性

ai android background-removal

T8RIN 开发者

12k

528

447

+24

排名 #17

3月21日

查看详情

openvinotoolkit/openvino

C++

OpenVINO™是用于优化和部署AI推理的开源工具套件

ai computer-vision deep-learning

openvinotoolkit 开发者

10k

3.2k

521

+207

排名 #22

6月9日

查看详情

pyannote/pyannote-audio

Jupyter Notebook

说话人日志神经构建模块：语音活动检测、说话人变更检测、重叠语音检测、说话人嵌入

overlapped-speech-detection pretrained-models pytorch

pyannote 开发者

9.9k

1.1k

390

+171

排名 #17

5月1日

查看详情

run-llama/liteparse

Rust

一款快速、实用且开源的文件解析工具

document-ocr document-processing ocr

run-llama 开发者

9.5k

585

192

+3k

排名 #18

6月7日

查看详情

moonshine-ai/moonshine

C

面向边缘设备的快速准确自动语音识别

intent-recognition stt tts

moonshine-ai 开发者

8.2k

431

437

+133

排名 #16

5月24日

查看详情

all-contributors/allcontributors.org

MDX

✨ 全贡献者机器人网站与文档。认可所有贡献者，而不仅仅是推送代码的人 ✨

acknowledgements all-contributors contributors

all-contributors 开发者

8.1k

1.7k

316

+1

排名 #21

6月5日

查看详情

exadel-inc/CompreFace

Java

领先的免费开源人脸识别系统

computer-vision docker docker-compose

exadel-inc 开发者

7.9k

1.1k

395

+572

排名 #16

5月15日

查看详情

microsoft/presidio

Python

一个用于在文本、图像和结构化数据中检测、编辑、掩码和匿名化敏感数据的开源框架。支持自然语言处理、模式匹配和可定制流水线。

anonymization data-anonymization data-masking

microsoft 开发者

7.8k

1k

273

+50

排名 #16

4月24日

查看详情

Blaizzy/mlx-audio

Python

一个基于苹果MLX框架构建的文本转语音、语音转文本及语音转语音库，可在Apple Silicon芯片上实现高效语音分析。

apple-silicon audio-processing mlx

Blaizzy 开发者

6.3k

493

433

+2k

排名 #13

3月15日

查看详情

argmaxinc/argmax-oss-swift

Swift

面向苹果芯片的端侧语音人工智能

inference ios macos

argmaxinc 开发者

6.2k

572

145

+58

排名 #16

6月10日

查看详情

argmaxinc/WhisperKit

Swift

适用于Apple Silicon设备的本地语音识别

inference ios macos

argmaxinc 开发者

6k

541

409

+202

排名 #21

4月8日

查看详情

ecog - 主题项目

ecog - 主题项目

每日趋势

每周趋势

每月趋势

趋势分析

huggingface/transformers

ggml-org/whisper.cpp

paperless-ngx/paperless-ngx

opendataloader-project/opendataloader-pdf

serengil/deepface

m-bain/whisperX

antlr/antlr4

pot-app/pot-desktop

modelscope/FunASR

NVIDIA-NeMo/NeMo

NVIDIA/DeepLearningExamples

alphacep/vosk-api

Anionex/banana-slides

T8RIN/ImageToolbox

openvinotoolkit/openvino

pyannote/pyannote-audio

run-llama/liteparse

moonshine-ai/moonshine

all-contributors/allcontributors.org

exadel-inc/CompreFace

microsoft/presidio

Blaizzy/mlx-audio

argmaxinc/argmax-oss-swift

argmaxinc/WhisperKit

TrendForge 助手