crawl

firecrawl/firecrawl

TypeScript

面向AI的网页数据API——将整个网站转换为LLM就绪的Markdown或结构化数据🔥

ai ai-agents ai-crawler

firecrawl 开发者

155k

8.9k

689

+15k

排名 #20

7月24日

查看详情

D4Vinci/Scrapling

Python

🕷️ 一个自适应网络爬虫框架，能够处理从单个请求到大规模爬取的所有任务！

ai ai-scraping automation

D4Vinci 开发者

67k

6.7k

662

+2k

排名 #15

6月30日

查看详情

scrapy/scrapy

Python

Scrapy：Python 快速高级网页爬取与抓取框架

crawler crawling framework

scrapy 开发者

62k

11k

608

+272

排名 #18

6月23日

查看详情

NaiboWang/EasySpider

JavaScript

易采集：一个可视化无代码/免编程的网络爬虫工具，支持通过图形化界面设计和执行采集任务。别名：ServiceWrapper面向Web应用的智能化服务封装系统。

batch-processing batch-script code-free

NaiboWang 开发者

44k

5.4k

590

+81

排名 #13

6月21日

查看详情

iawia002/lux

Go

👾 使用 Go 语言编写的快速简洁视频下载库与命令行工具

bilibili crawler download

iawia002 开发者

31k

3.3k

335

+3

排名 #13

7月5日

查看详情

apify/crawlee

TypeScript

Crawlee——一个用于构建可靠爬虫的Node.js网络爬取和浏览器自动化库。支持JavaScript与TypeScript。可为人工智能、大语言模型、检索增强生成或GPT提取数据。从网站下载HTML、PDF、JPG、PNG等文件。兼容Puppeteer、Playwright、Cheerio、JSDOM及原始HTTP请求。支持有头模式与无头模式。提供代理轮换功能。

apify automation crawler

apify 开发者

24k

1.6k

615

+48

排名 #13

7月24日

查看详情

projectdiscovery/katana

Go

下一代爬虫和蜘蛛框架。

cli crawler gocrawler

projectdiscovery 开发者

16k

1.1k

583

+797

排名 #16

5月28日

查看详情

getmaxun/maxun

TypeScript

🔥 开源无代码网页抓取、爬虫、搜索与AI数据提取平台 • 数分钟内将网站转为结构化API 🔥

agents api automation

getmaxun 开发者

16k

1.4k

515

+170

排名 #12

7月1日

查看详情

ssssssss-team/spider-flow

Java

新一代爬虫平台，通过图形化方式定义爬虫流程，无需编写代码即可实现数据采集。

crawler jsoup spider

ssssssss-team 开发者

11k

2.2k

495

+19

排名 #20

2月5日

查看详情

apify/crawlee-python

Python

Crawlee——用于构建可靠爬虫的 Python 网页抓取与浏览器自动化库。为 AI、大语言模型、检索增强生成或 GPT 提取数据，支持从网站下载 HTML、PDF、JPG、PNG 等文件。兼容 BeautifulSoup、Playwright 及原始 HTTP 请求，支持有头模式和无头模式，具备代理轮换功能。

apify automation beautifulsoup

apify 开发者

8.5k

662

516

+79

排名 #11

3月10日

查看详情

lorien/awesome-web-scraping

Makefile

用于网络爬虫与数据处理的库、工具及API列表。

captcha-bypass captcha-recaptcha crawler

lorien 开发者

8k

914

477

+48

排名 #14

7月5日

查看详情

adithya-s-k/omniparse

Python

摄取、解析并优化任意数据格式 ➡️ 从文档到多媒体 ➡️ 以增强与GenAI框架的兼容性

ingestion-api ocr omniparser

adithya-s-k 开发者

7.4k

610

276

+100

排名 #13

5月28日

查看详情

firecrawl/firecrawl-mcp-server

JavaScript

🔥 官方 Firecrawl MCP 服务器 - 为 Cursor、Claude 及其他 LLM 客户端添加强大的网络爬取功能

batch-processing claude content-extraction

firecrawl 开发者

6.2k

699

511

+17

排名 #13

4月30日

查看详情

omkarcloud/botasaurus

Python

构建无懈可击爬虫的全能框架

anti-bot anti-detect anti-detect-browser

omkarcloud 开发者

5.5k

479

210

+211

排名 #12

7月1日

查看详情

201206030/novel-plus

Java

novel-plus is a multi-platform (PC, WAP) reading and feature-rich novel CMS system. It includes novel recommendations, novel search, novel rankings, novel reading, novel bookshelf, novel reviews, novel crawler, member center, writer zone, recharge subscription, news publishing, and other features.

book crawl novel