extraction

话题找到数量

firecrawl/firecrawl

面向AI的网页数据API——将整个网站转换为LLM就绪的Markdown或结构化数据🔥

99k
6.7k
207
+726
排名 #11
3月28日
查看详情

D4Vinci/Scrapling

🕷️ 一个自适应网络爬虫框架,能够处理从单个请求到大规模爬取的所有任务!

18k
1.2k
195
+2k
排名 #14
2月27日
查看详情

getmaxun/maxun

✨ The open-source no-code platform for web scraping, crawling, search and AI data extraction • Turn websites into structured APIs in minutes ✨

14k
1.2k
184
+170
排名 #11
2月14日
查看详情

opendataloader-project/opendataloader-pdf

面向AI就绪数据的PDF解析器。

13k
1.1k
189
+9.2k
排名 #5
4月9日
查看详情

aonez/Keka

macOS与iOS文件归档工具

6.6k
284
174
+6
排名 #9
4月3日
查看详情

firecrawl/firecrawl-mcp-server

🔥 官方 Firecrawl MCP 服务器 - 为 Cursor、Claude 及其他 LLM 客户端添加强大的网络爬取功能

5.3k
590
174
+9
排名 #10
1月26日
查看详情

JohnSnowLabs/spark-nlp

顶尖自然语言处理技术

4.1k
741
80
+2
排名 #10
4月7日
查看详情

run-llama/liteparse

一款快速、实用且开源的文件解析工具

4.1k
264
0
+75
排名 #8
4月9日
查看详情

apache/tika

Apache Tika 工具包可检测并提取超过千种文件类型(如 PPT、XLS 和 PDF)的元数据和文本

3.7k
919
135
+5
排名 #14
4月2日
查看详情

HoshinoSuzumi/chronoframe

自托管个人相册应用,支持在线照片管理与相册创建,具备实况照片解析、EXIF数据读取、地理位置识别及探索地图功能。

1.7k
111
171
+4
排名 #19
3月14日
查看详情

yfedoseev/pdf_oxide

Python与Rust最快的PDF库。支持文本提取、图像提取、Markdown转换、PDF创建与编辑。平均耗时0.8毫秒,比行业领先产品快5倍,在3830份PDF测试中通过率100%。采用MIT/Apache-0双协议。

373
38
114
+93
排名 #13
3月6日
查看详情
助手