❤️❤️❤️❤️❤️❤️ 我们已经正式推出微信小程序，在微信中搜索 TrendForge Pro 即可使用小程序，如果使用 Telegram 请搜索 trendforge_tg ❤️❤️❤️❤️❤️❤️

extraction

话题找到数量

firecrawl/firecrawl

TypeScript

面向AI的网页数据API——将整个网站转换为LLM就绪的Markdown或结构化数据🔥

ai ai-agents ai-crawler

firecrawl 开发者

146k

8.4k

576

+15k

排名 #20

7月6日

查看详情

D4Vinci/Scrapling

Python

🕷️ 一个自适应网络爬虫框架，能够处理从单个请求到大规模爬取的所有任务！

ai ai-scraping automation

D4Vinci 开发者

67k

6.7k

597

+2k

排名 #15

6月30日

查看详情

opendataloader-project/opendataloader-pdf

Java

面向AI就绪数据的PDF解析器。

a11y accessibility ai

opendataloader-project 开发者

27k

2.6k

444

+9.2k

排名 #22

7月12日

查看详情

getmaxun/maxun

TypeScript

🔥 开源无代码网页抓取、爬虫、搜索与AI数据提取平台 • 数分钟内将网站转为结构化API 🔥

agents api automation

getmaxun 开发者

16k

1.4k

436

+170

排名 #12

7月1日

查看详情

run-llama/liteparse

Rust

一款快速、实用且开源的文件解析工具

document-ocr document-processing ocr

run-llama 开发者

11k

750

272

+3.1k

排名 #18

6月30日

查看详情

aonez/Keka

PHP

macOS与iOS文件归档工具

7zip archiver compression

aonez 开发者

6.8k

289

491

排名 #14

5月8日

查看详情

firecrawl/firecrawl-mcp-server

JavaScript

🔥 官方 Firecrawl MCP 服务器 - 为 Cursor、Claude 及其他 LLM 客户端添加强大的网络爬取功能

batch-processing claude content-extraction

firecrawl 开发者

6.2k

699

481

+17

排名 #13

4月30日

查看详情

JohnSnowLabs/spark-nlp

Scala

顶尖自然语言处理技术

bert entity-extraction language-detection

JohnSnowLabs 开发者

4.1k

743

357

排名 #16

6月29日

查看详情

run-llama/liteparse

TypeScript

一款快速、实用且开源的文件解析工具

document-ocr document-processing ocr

run-llama 开发者

4.1k

264

272

+75

排名 #8

4月9日

查看详情

apache/tika

Java

Apache Tika 工具包可检测并提取超过千种文件类型（如 PPT、XLS 和 PDF）的元数据和文本

content extraction java

apache 开发者

3.8k

938

462

排名 #14

6月9日

查看详情

HoshinoSuzumi/chronoframe

Vue

自托管个人相册应用，支持在线照片管理与相册创建，具备实况照片解析、EXIF数据读取、地理位置识别及探索地图功能。

albums exif-extraction geocoding

HoshinoSuzumi 开发者

1.8k

131

508

排名 #19

6月9日

查看详情

yifanfeng97/Hyper-Extract

Python

利用大语言模型将非结构化文本转化为结构化知识。支持图、超图及时空数据提取——仅需一条命令。

ai ai-agents cli

yifanfeng97 开发者

1.8k

202

129

+124

排名 #7

6月18日

查看详情

firecrawl/pdf-inspector

Rust

用于PDF检查、分类和文本提取的快速Rust库。智能检测扫描版与文本版PDF，以实现智能路由决策。

markdown nodejs ocr-routing

firecrawl 开发者

1.5k

136

197

+213

排名 #19

6月11日

查看详情

yfedoseev/pdf_oxide

Rust

Python与Rust最快的PDF库。支持文本提取、图像提取、Markdown转换、PDF创建与编辑。平均耗时0.8毫秒，比行业领先产品快5倍，在3830份PDF测试中通过率100%。采用MIT/Apache-0双协议。

data-extraction document-processing fast

yfedoseev 开发者

373

369

+93

排名 #13

3月6日

查看详情

mrshu/github-statuses

HTML

“缺失的GitHub状态页面”——一种基于Flat Data方法对GitHub状态进行历史记录尝试

data-extraction flat-data github

mrshu 开发者

302

247

+27

排名 #3

5月1日

查看详情

首页上一页

下一页末页

extraction - 主题项目

extraction - 主题项目

每日趋势

每周趋势

每月趋势

趋势分析

extraction

firecrawl/firecrawl

D4Vinci/Scrapling

opendataloader-project/opendataloader-pdf

getmaxun/maxun

run-llama/liteparse

aonez/Keka

firecrawl/firecrawl-mcp-server

JohnSnowLabs/spark-nlp

run-llama/liteparse

apache/tika

HoshinoSuzumi/chronoframe

yifanfeng97/Hyper-Extract

firecrawl/pdf-inspector

yfedoseev/pdf_oxide

mrshu/github-statuses

TrendForge 助手