项目竞品项目
D4Vinci/Scrapling
🕷️ 一个自适应网络爬虫框架,能够处理从单个请求到大规模爬取的所有任务!
getmaxun/maxun
✨ The open-source no-code platform for web scraping, crawling, search and AI data extraction • Turn websites into structured APIs in minutes ✨
scrapy/scrapy
Scrapy:Python 快速高级网页爬取与抓取框架
apify/crawlee
Crawlee——一个用于构建可靠爬虫的Node.js网络爬取和浏览器自动化库。支持JavaScript与TypeScript。可为人工智能、大语言模型、检索增强生成或GPT提取数据。从网站下载HTML、PDF、JPG、PNG等文件。兼容Puppeteer、Playwright、Cheerio、JSDOM及原始HTTP请求。支持有头模式与无头模式。提供代理轮换功能。
apify/crawlee-python
Crawlee——用于构建可靠爬虫的 Python 网页抓取与浏览器自动化库。为 AI、大语言模型、检索增强生成或 GPT 提取数据,支持从网站下载 HTML、PDF、JPG、PNG 等文件。兼容 BeautifulSoup、Playwright 及原始 HTTP 请求,支持有头模式和无头模式,具备代理轮换功能。
firecrawl/firecrawl
面向AI的网页数据API——将整个网站转换为LLM就绪的Markdown或结构化数据🔥
daijro/camoufox
🦊 反检测浏览器
NaiboWang/EasySpider
易采集:一个可视化无代码/免编程的网络爬虫工具,支持通过图形化界面设计和执行采集任务。别名:ServiceWrapper面向Web应用的智能化服务封装系统。
ssssssss-team/spider-flow
新一代爬虫平台,通过图形化方式定义爬虫流程,无需编写代码即可实现数据采集。
相关项目推荐
golang-standards/project-layout
标准Go项目结构规范
veggiemonk/awesome-docker
🐳 精选 Docker 资源与项目列表
jobbole/awesome-python-cn
Python资源大全中文版,涵盖Web框架、网络爬虫、模板引擎、数据库、数据可视化、图像处理等领域,由「开源前哨」与「Python开发者」微信公众号团队联合维护更新。
uber-go/guide
Uber Go 语言编码风格指南
zh-google-styleguide/zh-google-styleguide
Google 开源项目风格指南(中文版)
motioneye-project/motioneyeos
面向单板计算机的视频监控操作系统