scraping

firecrawl/firecrawl

TypeScript

面向AI的网页数据API——将整个网站转换为LLM就绪的Markdown或结构化数据🔥

ai ai-agents ai-crawler

firecrawl 开发者

155k

8.9k

689

+15k

排名 #20

7月24日

查看详情

D4Vinci/Scrapling

Python

🕷️ 一个自适应网络爬虫框架，能够处理从单个请求到大规模爬取的所有任务！

ai ai-scraping automation

D4Vinci 开发者

67k

6.7k

662

+2k

排名 #15

6月30日

查看详情

scrapy/scrapy

Python

Scrapy：Python 快速高级网页爬取与抓取框架

crawler crawling framework

scrapy 开发者

62k

11k

608

+272

排名 #18

6月23日

查看详情

Mintplex-Labs/anything-llm

JavaScript

内置RAG、AI智能体、无代码智能体构建器、MCP兼容等功能的桌面与Docker一体化AI应用

ai-agents custom-ai-agents deepseek

Mintplex-Labs 开发者

60k

6.5k

747

+2.3k

排名 #16

5月21日

查看详情

huginn/huginn

Ruby

创建可监控并代您执行的智能体。您的智能体随时待命！

agent automation feed

huginn 开发者

49k

4.3k

562

+231

排名 #23

7月25日

查看详情

soxoj/maigret

Python

🕵️‍♂️ 通过用户名从数千个网站收集个人档案

cli cybersecurity identification

soxoj 开发者

34k

2.6k

562

+10k

排名 #14

7月1日

查看详情

dgtlmoon/changedetection.io

Python

最优秀且简洁的网站变更检测、网页监控与网站变动提醒工具。完美适用于内容变更追踪、价格下降提醒、补货通知及网站篡改监控——完全免费或选择我们的SaaS方案！

back-in-stock change-alert change-detection

dgtlmoon 开发者

30k

1.7k

464

+32

排名 #7

4月4日

查看详情

JCodesMore/ai-website-cloner-template

TypeScript

使用AI编程代理，通过一条命令克隆任意网站

ai ai-agents ai-tools

JCodesMore 开发者

29k

4.2k

411

+5.3k

排名 #18

7月22日

查看详情

CloakHQ/CloakBrowser

Python

一款能通过所有机器人检测测试的隐形Chromium浏览器。可直接替代Playwright，并附带源码级指纹补丁。30/30项测试全部通过。

ai-agents anti-detect antidetect-browser

CloakHQ 开发者

28k

2.3k

543

+21k

排名 #15

7月21日

查看详情

assafelovic/gpt-researcher

Python

一个能够利用任何大型语言模型提供商对任意数据进行深度研究的自主智能体。

agent ai automation

assafelovic 开发者

25k

3.3k

753

+36

排名 #6

1月26日

查看详情

apify/crawlee

TypeScript

Crawlee——一个用于构建可靠爬虫的Node.js网络爬取和浏览器自动化库。支持JavaScript与TypeScript。可为人工智能、大语言模型、检索增强生成或GPT提取数据。从网站下载HTML、PDF、JPG、PNG等文件。兼容Puppeteer、Playwright、Cheerio、JSDOM及原始HTTP请求。支持有头模式与无头模式。提供代理轮换功能。

apify automation crawler

apify 开发者

24k

1.6k

615

+48

排名 #13

7月24日

查看详情

getmaxun/maxun

TypeScript

🔥 开源无代码网页抓取、爬虫、搜索与AI数据提取平台 • 数分钟内将网站转为结构化API 🔥

agents api automation

getmaxun 开发者

16k

1.4k

515

+170

排名 #12

7月1日

查看详情

MODSetter/SurfSense

Python

NotebookLM/Perplexity开源替代方案，支持连接搜索引擎、Slack、Linear、Jira、ClickUp、Confluence、Notion、YouTube、GitHub、Discord等外部资源。加入Discord社区：https://discord.gg/ejRNvftDp9

agent agents ai

MODSetter 开发者

15k

1.5k

462

+29

排名 #5

7月25日

查看详情

pystardust/ani-cli

Shell

用于浏览和播放动漫的命令行工具

anime cli fzf

pystardust 开发者

13k

834

614

+598

排名 #16

7月20日

查看详情

yusufkaraaslan/Skill_Seekers

Python

将文档网站、GitHub仓库和PDF文件转换为Claude AI技能，并具备自动冲突检测功能。

ai-tools ast-parser automation

yusufkaraaslan 开发者

12k

1.2k

625

+264

排名 #15

4月3日

查看详情

daijro/camoufox

C++

🦊 反检测浏览器

antidetect antidetect-browser fingerprint

daijro 开发者

10k

872

503

+1.3k

排名 #21

7月19日

查看详情

apify/crawlee-python

Python

Crawlee——用于构建可靠爬虫的 Python 网页抓取与浏览器自动化库。为 AI、大语言模型、检索增强生成或 GPT 提取数据，支持从网站下载 HTML、PDF、JPG、PNG 等文件。兼容 BeautifulSoup、Playwright 及原始 HTTP 请求，支持有头模式和无头模式，具备代理轮换功能。

apify automation beautifulsoup

apify 开发者

8.5k

662

516

+79

排名 #11

3月10日

查看详情