项目竞品项目
D4Vinci/Scrapling
🕷️ 一个自适应网络爬虫框架,能够处理从单个请求到大规模爬取的所有任务!
getmaxun/maxun
✨ The open-source no-code platform for web scraping, crawling, search and AI data extraction • Turn websites into structured APIs in minutes ✨
apify/crawlee
Crawlee——一个用于构建可靠爬虫的Node.js网络爬取和浏览器自动化库。支持JavaScript与TypeScript。可为人工智能、大语言模型、检索增强生成或GPT提取数据。从网站下载HTML、PDF、JPG、PNG等文件。兼容Puppeteer、Playwright、Cheerio、JSDOM及原始HTTP请求。支持有头模式与无头模式。提供代理轮换功能。
apify/crawlee-python
Crawlee——用于构建可靠爬虫的 Python 网页抓取与浏览器自动化库。为 AI、大语言模型、检索增强生成或 GPT 提取数据,支持从网站下载 HTML、PDF、JPG、PNG 等文件。兼容 BeautifulSoup、Playwright 及原始 HTTP 请求,支持有头模式和无头模式,具备代理轮换功能。
lorien/awesome-web-scraping
用于网络爬虫与数据处理的库、工具及API列表。
firecrawl/firecrawl
面向AI的网页数据API——将整个网站转换为LLM就绪的Markdown或结构化数据🔥
microsoft/playwright
Playwright 是一个用于 Web 测试与自动化的框架,支持通过单一 API 测试 Chromium、Firefox 和 WebKit 浏览器。
相关项目推荐
tensorflow/tensorflow
面向所有人的开源机器学习框架
facebook/react-native
一个使用React构建原生应用程序的框架
electron/electron
使用 JavaScript、HTML 和 CSS 构建跨平台桌面应用程序
godotengine/godot
Godot引擎——跨平台2D与3D游戏引擎
ggml-org/llama.cpp
使用 C/C++ 实现的大语言模型推理框架
microsoft/terminal
全新Windows Terminal与经典Windows控制台主机,集于一处!