项目竞品项目
firecrawl/firecrawl
面向AI的网页数据API——将整个网站转换为LLM就绪的Markdown或结构化数据🔥
apify/crawlee
Crawlee——一个用于构建可靠爬虫的Node.js网络爬取和浏览器自动化库。支持JavaScript与TypeScript。可为人工智能、大语言模型、检索增强生成或GPT提取数据。从网站下载HTML、PDF、JPG、PNG等文件。兼容Puppeteer、Playwright、Cheerio、JSDOM及原始HTTP请求。支持有头模式与无头模式。提供代理轮换功能。
projectdiscovery/katana
下一代爬虫和蜘蛛框架。
apify/crawlee-python
Crawlee——用于构建可靠爬虫的 Python 网页抓取与浏览器自动化库。为 AI、大语言模型、检索增强生成或 GPT 提取数据,支持从网站下载 HTML、PDF、JPG、PNG 等文件。兼容 BeautifulSoup、Playwright 及原始 HTTP 请求,支持有头模式和无头模式,具备代理轮换功能。
NaiboWang/EasySpider
易采集:一个可视化无代码/免编程的网络爬虫工具,支持通过图形化界面设计和执行采集任务。别名:ServiceWrapper面向Web应用的智能化服务封装系统。
lorien/awesome-web-scraping
用于网络爬虫与数据处理的库、工具及API列表。
D4Vinci/Scrapling
🕷️ 一个自适应网络爬虫框架,能够处理从单个请求到大规模爬取的所有任务!
相关项目推荐
Snailclimb/JavaGuide
「Java学习+面试指南」涵盖大多数Java程序员需掌握的核心知识。备战Java面试,首选JavaGuide!
krahets/hello-algo
《Hello 算法》:动画图解、一键运行的数据结构与算法教程。支持 Python, Java, C++, C, C#, JS, Go, Swift, Rust, Ruby, Kotlin, TS, Dart 代码。简体版和繁体版同步更新,英文版翻译中
iluwatar/java-design-patterns
Java 实现的设计模式
spring-projects/spring-boot
Spring Boot 助您轻松创建基于 Spring 的生产级应用程序和服务
elastic/elasticsearch
免费开源的分布式 RESTful 搜索引擎
MisterBooo/LeetCodeAnimation
Demonstrate all the questions on LeetCode in the form of animation.(用动画的形式呈现解LeetCode题目的思路)