一个原则:从轻到重,够用就停,能不开浏览器就别开。
最近刷 GitHub 的时候,发现一个很实用的工具栈组合。几个开箱即用的开源项目,拼在一起基本覆盖了 Agent 拿数据的全部场景——从扒社会媒体、批量抓静态页面,到需要登录态后的后台操作,一条线拉通。
而且核心思路很有意思:不重度依赖某一个工具,而是按场景分层,让 Agent 自己决定用什么。
先看全景。这五个工具按「操作强度」从小到大排列:
| 工具 | 定位 | 适合场景 | GitHub Stars |
|---|---|---|---|
| Agent-Reach | 社科信息采集脚手架 | 小红书/X/知乎/公众号/抖音/YouTube/Reddit | 304+ |
| Scrapling | 自适应抓取框架 | 批量爬取、绕过反爬、Cloudflare | 56k+ |
| Browser-use | AI 浏览器自动化 | 填表、点击、多步操作、复杂交互 | 90k+ |
| Claude in Chrome | Chrome 扩展 | 需要亲眼盯着 Agent 操作 | 官方产品 |
| Web-access | Agent 联网 Skill | 全场景自动择优,CDP 接管日常浏览器 | 活跃维护 |
这个组合的精髓就一句话:能用 CLI 解决的不用浏览器,能静态抓的不用渲染,能自动化的不手动。
Agent-Reach 定位是「脚手架」,不是框架。它不自己实现抓取逻辑,而是替你做好工具选型和配置,装完 Agent 直接调用上游工具。
支持的平台覆盖很广:小红书、X/Twitter、抖音、YouTube、公众号、Reddit、微博、B站、V2EX、LinkedIn、雪球、小宇宙播客…… 16 个渠道,8 个装好即用,其余的配一下 Cookie 或 API 就行。
安装也很简单,丢给 Agent 一句话:
帮我安装 Agent Reach:https://raw.githubusercontent.com/Panniantong/agent-reach/main/docs/install.md
装完 agent-reach doctor 跑一遍诊断,每个渠道通不通一目了然。
它的设计理念很务实——每个渠道对应一个独立文件,底层工具随时可换。比如读网页默认用 Jina Reader(免费无 Key),如果觉得不够,换成 Firecrawl 或者 Crawl4AI 都行。底层工具都是成熟开源项目:yt-dlp(154K Stars)、twitter-cli、gh CLI 这些。
一个提醒:涉及 Cookie 登录的平台(Twitter、小红书),强烈建议用专用小号。这跟浏览器自动化一样,封号风险是真实存在的。
如果说 Agent-Reach 解决的是「怎么访问平台」,Scrapling 解决的是「怎么把数据薅出来」。
这是一个自适应的网页抓取框架,来自安全研究员 Karim Shoair(D4Vinci)。主打三个核心能力:
Fetcher(纯 HTTP)、DynamicFetcher(JS 渲染)、StealthyFetcher(反爬隐身),三种抓取器应对不同反爬等级性能数据很能打——解析 5000 个嵌套元素,Scrapling 用时 2.02 毫秒,BS4 用 html5lib 解析器要 3.4 秒,差了 1600 多倍。
还带一个完整爬虫框架,支持并发多 session 爬取、暂停恢复、自动代理轮换,一个 scrapling shell 命令就能进交互式调试。
对于常规的批量数据采集,选 Scrapling 就够了,犯不着上浏览器。
当静态抓取搞不定的时候——比如需要填表、点击、登录后操作、处理复杂交互——就需要上浏览器了。
Browser-use 是当前 AI 浏览器自动化的头部项目,90K+ Stars。核心思路是用 LLM 驱动的 Agent 操作真实浏览器,不是靠写死的 CSS 选择器或 XPath。
用法很简单:
from browser_use import Agent
agent = Agent(
task="去小红书搜索「供应链产品经理」,打开第一篇笔记,截图返回",
)
await agent.run()
它会自己决定先点哪里、输入什么、等待多久。你给它一个目标和几个关键参数,它自己「看着屏幕」操作。
不过老实说,Browser-use 有个现实问题——它需要配一个 LLM 模型来驱动。每次操作都要调模型,跑复杂任务 token 消耗不低。而且跑在独立浏览器里,默认不带你的登录态,需要自己传 Cookie。
所以它最适合的场景是:偶尔需要操作一下、且不依赖登录状态的页面。如果你天天要用它跑批量任务,要么上它的 Cloud 版本(处理了隐身和缩放问题),要么考虑下一个工具。
Browser-use 的局限在于「你看不到它在干嘛」。出了问题也不知道是 Agent 决策错了、还是页面变了、还是登录态掉了。
Claude in Chrome 是 Anthropic 官方的浏览器扩展,直接装在你的 Chrome 里。启动后你能亲眼看见 Claude 在页面上点击、填写、导航,跟看一个人在操作你的电脑差不多。
它用的是 Sonnet 4.5,操作逻辑和 Browser-use 类似——都是 LLM 驱动——区别在于透明度和可控性。你能实时看到它的每一步,中间卡住了可以打断纠正。
适合的典型场景:
不过它有使用门槛:你需要有 Claude 的 Pro 订阅(或者 Team/Enterprise 账号),而且本质上是个辅助工具,不是批量数据处理方案。
这是五件套里最「聪明」的一个。
Web-access 是一个 Skill(原为 Claude Code 设计,Cline/Cursor 也能用),核心思路是让 Agent 自己判断用哪种方式联网。它把联网能力分成三层通道:
三层自底向上,能轻就不重。大部分公开页面一层就够。需要登录的走 CDP 直连你的日常浏览器,省去了传 Cookie 的麻烦。
跟 Browser-use 相比,Web-access 的 CDP 方案有个核心优势:你日常 Chrome 里的所有登录态它都能用。打开 chrome://inspect/#remote-debugging 开启远程调试,Agent 就能直连你的浏览器。不用手动导 Cookie,不用处理登录流程。
它还带了一个站点经验积累系统——按域名存储操作经验(URL 模式、平台特征、已知陷阱),跨 Session 复用。同一个站第二次抓就快多了。
先装 Scrapling 试静态抓取,不行再起 CDP。 不开浏览器能解决的事,绝不开。
这篇文章涉及的五个工具(Agent-Reach / Scrapling / Browser-use / Claude in Chrome / Web-access)相关信息来自 GitHub 公开仓库、官方文档和社区公开讨论。GitHub Star 数截至 2026 年 6 月,开源项目变化快,数据仅供参考。文中提到的反爬绕过能力仅作技术介绍,使用时应遵守目标网站的 robots.txt 和用户协议。
说了这么多,到底怎么搭?
我的建议是按场景分三档:
轻量级(日常信息采集)
Agent-Reach 就够了。小红书搜产品讨论、公众号读文章、YouTube 提取字幕、Reddit 看社区反馈——一条命令搞定。
中等强度(批量数据抓取)
Agent-Reach 定位目标 + Scrapling 执行抓取。Agent-Reach 打通访问渠道,Scrapling 负责高并发采集和反爬对抗。
重型任务(全流程自动化)
Agent-Reach 找目标 → Scrapling 批量拉取 → CDP 兜底登录态。如果涉及复杂交互(填表单、操作后台),走 Web-access 的三层调度,让它自动判断。
| 项目 | 地址 |
|---|---|
| Agent-Reach | github.com/Panniantong/Agent-Reach |
| Scrapling | github.com/D4Vinci/Scrapling |
| Browser-use | github.com/browser-use/browser-use |
| Claude in Chrome | claude.ai/chrome |
| Web-access | github.com/eze-is/web-access |
说实话,大部份场景第一档和第二档就够用了。等到你要操作内部系统后台、或者扒登录后的课程网站时,再考虑上 CDP 那套。
原则不变:够用就停。不要为了用浏览器而用浏览器。