crawl

话题找到数量

firecrawl/firecrawl

面向AI的网页数据API——将整个网站转换为LLM就绪的Markdown或结构化数据🔥

108k
7k
283
+726
排名 #11
4月12日
查看详情

scrapy/scrapy

Scrapy:Python 快速高级网页爬取与抓取框架

60k
11k
293
+150
排名 #5
3月2日
查看详情

NaiboWang/EasySpider

易采集:一个可视化无代码/免编程的网络爬虫工具,支持通过图形化界面设计和执行采集任务。别名:ServiceWrapper面向Web应用的智能化服务封装系统。

44k
5.4k
293
+9
排名 #12
4月14日
查看详情

D4Vinci/Scrapling

🕷️ 一个自适应网络爬虫框架,能够处理从单个请求到大规模爬取的所有任务!

36k
3.1k
293
+2k
排名 #14
4月11日
查看详情

apify/crawlee

Crawlee——一个用于构建可靠爬虫的Node.js网络爬取和浏览器自动化库。支持JavaScript与TypeScript。可为人工智能、大语言模型、检索增强生成或GPT提取数据。从网站下载HTML、PDF、JPG、PNG等文件。兼容Puppeteer、Playwright、Cheerio、JSDOM及原始HTTP请求。支持有头模式与无头模式。提供代理轮换功能。

22k
1.3k
244
+36
排名 #11
3月11日
查看详情

projectdiscovery/katana

下一代爬虫和蜘蛛框架。

16k
1.1k
235
+797
排名 #16
4月7日
查看详情

getmaxun/maxun

✨ The open-source no-code platform for web scraping, crawling, search and AI data extraction • Turn websites into structured APIs in minutes ✨

14k
1.2k
255
+170
排名 #11
2月14日
查看详情

ssssssss-team/spider-flow

新一代爬虫平台,通过图形化方式定义爬虫流程,无需编写代码即可实现数据采集。

11k
2.2k
225
+19
排名 #20
2月5日
查看详情

apify/crawlee-python

Crawlee——用于构建可靠爬虫的 Python 网页抓取与浏览器自动化库。为 AI、大语言模型、检索增强生成或 GPT 提取数据,支持从网站下载 HTML、PDF、JPG、PNG 等文件。兼容 BeautifulSoup、Playwright 及原始 HTTP 请求,支持有头模式和无头模式,具备代理轮换功能。

8.5k
662
179
+79
排名 #11
3月10日
查看详情

lorien/awesome-web-scraping

用于网络爬虫与数据处理的库、工具及API列表。

7.8k
881
132
+48
排名 #14
4月1日
查看详情

firecrawl/firecrawl-mcp-server

🔥 官方 Firecrawl MCP 服务器 - 为 Cursor、Claude 及其他 LLM 客户端添加强大的网络爬取功能

5.3k
590
237
+9
排名 #10
1月26日
查看详情

any4ai/AnyCrawl

AnyCrawl 🚀:一款基于Node.js/TypeScript的爬虫工具,可将网站转化为适用于大语言模型的就绪数据,并能从谷歌、必应、百度等搜索引擎提取结构化搜索结果。原生支持多线程以进行批量处理。

3.1k
328
0
+108
排名 #3
4月22日
查看详情

TeamNewPipe/NewPipeExtractor

NewPipe用于从流媒体网站提取数据的核心库

1.7k
523
275
+56
排名 #19
2月10日
查看详情

notFaad/coom-dl

Coomer|kemono.party 或 su 下载器

426
40
81
排名 #15
4月15日
查看详情

Evil0ctal/WeChat-Channels-Video-File-Decryption

一个基于逆向工程实现的微信视频号加密视频在线解密工具及API服务。该项目利用微信官方的WebAssembly模块生成Isaac64伪随机数密钥流,并通过异或运算完成视频解密。

202
66
68
+4
排名 #3
4月22日
查看详情
助手