ocr

Stirling-Tools/Stirling-PDF

Java

首款本地托管式PDF文件多功能处理Web应用

docker hacktoberfest java

Stirling-Tools 开发者

86k

7.8k

573

+5.7k

排名 #23

7月12日

查看详情

Stirling-Tools/Stirling-PDF

TypeScript

首款本地托管式PDF文件多功能处理Web应用

docker hacktoberfest java

Stirling-Tools 开发者

82k

7.2k

573

+568

排名 #10

6月22日

查看详情

PaddlePaddle/PaddleOCR

Python

基于PaddlePaddle的超棒多语言OCR与文档解析工具包（实用超轻量OCR系统，支持80+语言识别，提供数据标注与合成工具，支持服务器/移动端/嵌入式/IoT设备全平台训练与部署）

ai4science chineseocr document-parsing

PaddlePaddle 开发者

82k

10k

770

+2.1k

排名 #17

6月17日

查看详情

tesseract-ocr/tesseract

C++

Tesseract开源OCR引擎（主代码库）

hacktoberfest lstm machine-learning

tesseract-ocr 开发者

75k

10k

618

+758

排名 #22

7月10日

查看详情

opendatalab/MinerU

Python

高质量PDF转Markdown和JSON工具。一站式开源数据提取解决方案，实现PDF到Markdown与JSON格式的精准转换。

ai4science document-analysis docx

opendatalab 开发者

71k

6k

443

+3.3k

排名 #20

6月28日

查看详情

hiroi-sora/Umi-OCR

Python

开源免费的离线OCR软件。支持截屏与批量图片导入、PDF文档识别、水印/页眉页脚排除、二维码扫描与生成。内置多国语言库。

ocr ocr-python paddleocr

hiroi-sora 开发者

43k

4.3k

407

+47

排名 #13

4月23日

查看详情

siyuan-note/siyuan

TypeScript

隐私优先、自托管、完全开源的个人知识管理软件，使用 TypeScript 和 Golang 编写

anki chatgpt deepseek

siyuan-note 开发者

43k

2.8k

473

+221

排名 #16

5月2日

查看详情

paperless-ngx/paperless-ngx

Python

社区支持的超级文档管理系统：扫描、索引和归档所有文档

angular archiving django

paperless-ngx 开发者

42k

2.9k

519

+611

排名 #17

7月12日

查看详情

ShareX/ShareX

C#

ShareX是一款免费开源应用程序，用户只需按下单个按键即可截取或录制屏幕任意区域。该程序还支持将图像、文本及各类文件上传至多种目标存储位置。

capture color-picker csharp

ShareX 开发者

38k

3.8k

510

+1.6k

排名 #23

7月12日

查看详情

naptha/tesseract.js

JavaScript

纯 JavaScript 实现的 OCR 库，支持 100 多种语言 📖🎉🖥

deep-learning javascript ocr

naptha 开发者

38k

2.4k

62

+149

排名 #10

7月14日

查看详情

opendataloader-project/opendataloader-pdf

Java

面向AI就绪数据的PDF解析器。

a11y accessibility ai

opendataloader-project 开发者

27k

2.6k

453

+9.2k

排名 #22

7月12日

查看详情

pot-app/pot-desktop

JavaScript

🌈 一款跨平台的划词翻译与OCR软件

linux macos ocr

pot-app 开发者

18k

929

386

+36

排名 #14

6月26日

查看详情

projectdiscovery/katana

Go

下一代爬虫和蜘蛛框架。

cli crawler gocrawler

projectdiscovery 开发者

16k

1.1k

516

+797

排名 #16

5月28日

查看详情

Y2Z/monolith

Rust

⬛️ CLI tool and library for saving complete web pages as a single HTML file

come-and-take-it e-hoarding its-mine

Y2Z 开发者

15k

460

173

+7

排名 #16

6月20日

查看详情

Unstructured-IO/unstructured

HTML

轻松将文档转换为结构化数据。Unstructured是开源的ETL解决方案，可将复杂文档转换为适合语言模型的整洁结构化格式。访问我们的网站了解企业级平台产品，支持生产级工作流、分区、增强、分块和嵌入。

data-pipelines deep-learning document-image-analysis

Unstructured-IO 开发者

15k

1.3k

621

+336

排名 #13

7月13日

查看详情

alam00000/bentopdf

JavaScript

隐私优先的PDF工具包

adobe-acrobat docker hacktoberfest

alam00000 开发者

13k

1.1k

530

+87

排名 #14

6月15日

查看详情

tisfeng/Easydict

Swift

一个简洁优雅的词典翻译macOS应用，开箱即用，支持离线OCR识别，集成有道词典、苹果系统词典、苹果系统翻译、OpenAI、Gemini、DeepL、Google、Bing、腾讯、百度、阿里、小牛、彩云和火山翻译

app baidu bing

tisfeng 开发者

13k

669

457

+770

排名 #16

6月1日

查看详情

HIllya51/LunaTranslator

C++

视觉小说翻译器，支持HOOK、OCR、剪贴板功能

galgame ocr reverse-engineering

HIllya51 开发者

12k

1.1k

351

+31

排名 #21

7月8日

查看详情

yusufkaraaslan/Skill_Seekers

Python

将文档网站、GitHub仓库和PDF文件转换为Claude AI技能，并具备自动冲突检测功能。

ai-tools ast-parser automation

yusufkaraaslan 开发者

12k

1.2k

538

+264

排名 #15

4月3日

查看详情

T8RIN/ImageToolbox

Kotlin

🖼️ 图像工具箱是一款支持高级图像处理的强大应用，提供从基础裁剪绘制到滤镜、OCR及多种图像处理功能的数十种特性

ai android background-removal

T8RIN 开发者

12k

528

578

+24

排名 #17

3月21日

查看详情

run-llama/liteparse

Rust

一款快速、实用且开源的文件解析工具

document-ocr document-processing ocr

run-llama 开发者

11k

750

283

+3.1k

排名 #18

6月30日

查看详情

dataelement/bisheng

TypeScript

毕昇是面向新一代企业AI应用的开源大语言模型运维平台，提供强大全面的功能：GenAI工作流、RAG、智能体、统一模型管理、评估监督、监督微调、数据集管理、企业级系统管理、可观测性等

agent ai chatbot

dataelement 开发者

11k

1.8k

491

+9

排名 #16

1月30日

查看详情

datalab-to/chandra

Python

能够处理复杂表格、表单、手写体并保留完整版式的OCR模型

ai ocr

datalab-to 开发者

9.1k

941

430

+912

排名 #10

4月17日

查看详情

CVHub520/X-AnyLabeling

Python

借助Segment Anything等卓越模型提供的AI支持，实现轻松数据标注

artificial-intelligence clip computer-vision

CVHub520 开发者

8.1k

885

468

+15

排名 #6

2月5日

查看详情

ocr - 主题项目

ocr - 主题项目

每日趋势

每周趋势

每月趋势

趋势分析

Stirling-Tools/Stirling-PDF

Stirling-Tools/Stirling-PDF

PaddlePaddle/PaddleOCR

tesseract-ocr/tesseract

opendatalab/MinerU

hiroi-sora/Umi-OCR

siyuan-note/siyuan

paperless-ngx/paperless-ngx

ShareX/ShareX

naptha/tesseract.js

opendataloader-project/opendataloader-pdf

pot-app/pot-desktop

projectdiscovery/katana

Y2Z/monolith

Unstructured-IO/unstructured

alam00000/bentopdf

tisfeng/Easydict

HIllya51/LunaTranslator

yusufkaraaslan/Skill_Seekers

T8RIN/ImageToolbox

run-llama/liteparse

dataelement/bisheng

datalab-to/chandra

CVHub520/X-AnyLabeling

TrendForge 助手