← 返回文章列表

Claude Code 配上这几个 Skill,基本能爬全网了

2026-06-04 AIAgentClaude Code爬虫网页抓取浏览器自动化开源

一个原则:从轻到重,够用就停,能不开浏览器就别开。

最近刷 GitHub 的时候,发现一个很实用的工具栈组合。几个开箱即用的开源项目,拼在一起基本覆盖了 Agent 拿数据的全部场景——从扒社会媒体、批量抓静态页面,到需要登录态后的后台操作,一条线拉通。

而且核心思路很有意思:不重度依赖某一个工具,而是按场景分层,让 Agent 自己决定用什么。


思路:五件套,从轻到重

先看全景。这五个工具按「操作强度」从小到大排列:

工具 定位 适合场景 GitHub Stars
Agent-Reach 社科信息采集脚手架 小红书/X/知乎/公众号/抖音/YouTube/Reddit 304+
Scrapling 自适应抓取框架 批量爬取、绕过反爬、Cloudflare 56k+
Browser-use AI 浏览器自动化 填表、点击、多步操作、复杂交互 90k+
Claude in Chrome Chrome 扩展 需要亲眼盯着 Agent 操作 官方产品
Web-access Agent 联网 Skill 全场景自动择优,CDP 接管日常浏览器 活跃维护

这个组合的精髓就一句话:能用 CLI 解决的不用浏览器,能静态抓的不用渲染,能自动化的不手动。


Agent-Reach:一步打通 16+ 平台

Agent-Reach 定位是「脚手架」,不是框架。它不自己实现抓取逻辑,而是替你做好工具选型和配置,装完 Agent 直接调用上游工具。

支持的平台覆盖很广:小红书、X/Twitter、抖音、YouTube、公众号、Reddit、微博、B站、V2EX、LinkedIn、雪球、小宇宙播客…… 16 个渠道,8 个装好即用,其余的配一下 Cookie 或 API 就行。

安装也很简单,丢给 Agent 一句话:

帮我安装 Agent Reach:https://raw.githubusercontent.com/Panniantong/agent-reach/main/docs/install.md

装完 agent-reach doctor 跑一遍诊断,每个渠道通不通一目了然。

它的设计理念很务实——每个渠道对应一个独立文件,底层工具随时可换。比如读网页默认用 Jina Reader(免费无 Key),如果觉得不够,换成 Firecrawl 或者 Crawl4AI 都行。底层工具都是成熟开源项目:yt-dlp(154K Stars)、twitter-cli、gh CLI 这些。

一个提醒:涉及 Cookie 登录的平台(Twitter、小红书),强烈建议用专用小号。这跟浏览器自动化一样,封号风险是真实存在的。


Scrapling:静态爬虫的终极形态

如果说 Agent-Reach 解决的是「怎么访问平台」,Scrapling 解决的是「怎么把数据薅出来」。

这是一个自适应的网页抓取框架,来自安全研究员 Karim Shoair(D4Vinci)。主打三个核心能力:

性能数据很能打——解析 5000 个嵌套元素,Scrapling 用时 2.02 毫秒,BS4 用 html5lib 解析器要 3.4 秒,差了 1600 多倍。

还带一个完整爬虫框架,支持并发多 session 爬取、暂停恢复、自动代理轮换,一个 scrapling shell 命令就能进交互式调试。

对于常规的批量数据采集,选 Scrapling 就够了,犯不着上浏览器。


Browser-use:需要实时操作时才上浏览器

当静态抓取搞不定的时候——比如需要填表、点击、登录后操作、处理复杂交互——就需要上浏览器了。

Browser-use 是当前 AI 浏览器自动化的头部项目,90K+ Stars。核心思路是用 LLM 驱动的 Agent 操作真实浏览器,不是靠写死的 CSS 选择器或 XPath。

用法很简单:

from browser_use import Agent

agent = Agent(
    task="去小红书搜索「供应链产品经理」,打开第一篇笔记,截图返回",
)
await agent.run()

它会自己决定先点哪里、输入什么、等待多久。你给它一个目标和几个关键参数,它自己「看着屏幕」操作。

不过老实说,Browser-use 有个现实问题——它需要配一个 LLM 模型来驱动。每次操作都要调模型,跑复杂任务 token 消耗不低。而且跑在独立浏览器里,默认不带你的登录态,需要自己传 Cookie。

所以它最适合的场景是:偶尔需要操作一下、且不依赖登录状态的页面。如果你天天要用它跑批量任务,要么上它的 Cloud 版本(处理了隐身和缩放问题),要么考虑下一个工具。


Claude in Chrome:需要盯着操作的场景

Browser-use 的局限在于「你看不到它在干嘛」。出了问题也不知道是 Agent 决策错了、还是页面变了、还是登录态掉了。

Claude in Chrome 是 Anthropic 官方的浏览器扩展,直接装在你的 Chrome 里。启动后你能亲眼看见 Claude 在页面上点击、填写、导航,跟看一个人在操作你的电脑差不多。

它用的是 Sonnet 4.5,操作逻辑和 Browser-use 类似——都是 LLM 驱动——区别在于透明度和可控性。你能实时看到它的每一步,中间卡住了可以打断纠正。

适合的典型场景:

不过它有使用门槛:你需要有 Claude 的 Pro 订阅(或者 Team/Enterprise 账号),而且本质上是个辅助工具,不是批量数据处理方案。


Web-access:全场景自动调度的终极方案

这是五件套里最「聪明」的一个。

Web-access 是一个 Skill(原为 Claude Code 设计,Cline/Cursor 也能用),核心思路是让 Agent 自己判断用哪种方式联网。它把联网能力分成三层通道:

三层自底向上,能轻就不重。大部分公开页面一层就够。需要登录的走 CDP 直连你的日常浏览器,省去了传 Cookie 的麻烦。

跟 Browser-use 相比,Web-access 的 CDP 方案有个核心优势:你日常 Chrome 里的所有登录态它都能用。打开 chrome://inspect/#remote-debugging 开启远程调试,Agent 就能直连你的浏览器。不用手动导 Cookie,不用处理登录流程。

它还带了一个站点经验积累系统——按域名存储操作经验(URL 模式、平台特征、已知陷阱),跨 Session 复用。同一个站第二次抓就快多了。

先装 Scrapling 试静态抓取,不行再起 CDP。 不开浏览器能解决的事,绝不开。


信息补充说明

这篇文章涉及的五个工具(Agent-Reach / Scrapling / Browser-use / Claude in Chrome / Web-access)相关信息来自 GitHub 公开仓库、官方文档和社区公开讨论。GitHub Star 数截至 2026 年 6 月,开源项目变化快,数据仅供参考。文中提到的反爬绕过能力仅作技术介绍,使用时应遵守目标网站的 robots.txt 和用户协议。


实战组合建议

说了这么多,到底怎么搭?

我的建议是按场景分三档:

轻量级(日常信息采集)

Agent-Reach 就够了。小红书搜产品讨论、公众号读文章、YouTube 提取字幕、Reddit 看社区反馈——一条命令搞定。

中等强度(批量数据抓取)

Agent-Reach 定位目标 + Scrapling 执行抓取。Agent-Reach 打通访问渠道,Scrapling 负责高并发采集和反爬对抗。

重型任务(全流程自动化)

Agent-Reach 找目标 → Scrapling 批量拉取 → CDP 兜底登录态。如果涉及复杂交互(填表单、操作后台),走 Web-access 的三层调度,让它自动判断。

项目 地址
Agent-Reach github.com/Panniantong/Agent-Reach
Scrapling github.com/D4Vinci/Scrapling
Browser-use github.com/browser-use/browser-use
Claude in Chrome claude.ai/chrome
Web-access github.com/eze-is/web-access

说实话,大部份场景第一档和第二档就够用了。等到你要操作内部系统后台、或者扒登录后的课程网站时,再考虑上 CDP 那套。

原则不变:够用就停。不要为了用浏览器而用浏览器。