我花了好几个小时,终于把 OpenClaw 调到像人类一样控制浏览器了

我花了好几个小时,终于把 OpenClaw 调到像人类一样控制浏览器了

这篇文章讲什么

AI浏览器自动化不稳定的根本原因并非模型能力不足,而是“浏览器上下文分裂”。当AI通过多种路径(如MCP、Playwright、扩展或本地命令)操作浏览器时,实际上处于不同的浏览器实例、profile与状态中,导致登录态丢失、操作混乱与行为不连续。解决方案在于将所有操作收敛到单一链路:复用系统Chrome,通过Browser Relay接管当前tab,并基于DOM而非截图进行页面读取。同时,需禁止fallback路径,确保环境一致性。最终,使AI从“偶发成功的脚本”进化为“稳定持续操作的浏览器代理”,实现接近人类的自动化体验。

适合谁看

适合关注ai、agent、openclaw的读者。

核心观点

AI浏览器自动化不稳定的根本原因并非模型能力不足,而是“浏览器上下文分裂”。当AI通过多种路径(如MCP、Playwright、扩展或本地命令)操作浏览器时,实际上处于不同的浏览器实例、profile与状态中,导致登录态丢失、操作混乱与行为不连续。解决方案在于将所有操作收敛到单一链路:复用系统Chrome,通过Browser Relay接管当前tab,并基于DOM而非截图进行页面读取。同时,需禁止fallback路径,确保环境一致性。最终,使AI从“偶发成功的脚本”进化为“稳定持续操作的浏览器代理”,实现接近人类的自动化体验。

Carry
2026年3月24日
2

AI 浏览器自动化不稳定,99%不是模型问题

我刚把 OpenClaw(龙虾🦞)调到像人类一样稳定控制浏览器,才真正搞明白这件事。

很多人遇到的是这种情况:

  • 一会儿乱点按钮
  • 一会儿新开窗口
  • 一会儿掉登录态
  • 一会儿靠截图“猜页面”
  • 一会儿像失忆一样不知道自己在哪个 tab

看起来像什么?

👉 模型不稳定
👉 自动化能力不够

其实都不是。


真正的问题只有一个

AI 没有活在同一个浏览器世界里。


表象:你以为它在一个浏览器里

我一开始也以为很简单:

让 OpenClaw 控制我正在用的 Chrome:

  • 打开 X
  • 搜索
  • 滚动
  • 点链接
  • 切 tab

听起来很基础对吧?

结果一上来就崩:

  • 有时候用我的 Chrome
  • 有时候新开一个浏览器
  • 有时候有登录态
  • 有时候又变未登录

很多人会觉得:

  • cookie 丢了 ❌
  • 会话过期 ❌
  • 网站抽风 ❌

不是。


本质:浏览器上下文分裂

OpenClaw 在“打开浏览器”这件事上,可能会走很多路径:

  • browser_* 工具
  • Playwright MCP
  • Chrome extension relay
  • opencli
  • shell 直接拉起 Chrome

这些路径表面一样,本质完全不同:

  • 不同 profile
  • 不同 cookie
  • 不同 tab
  • 不同 DOM 状态

结果就是:

你以为 AI 在连续操作
其实它每一步都在不同浏览器里


核心结论

浏览器链路是否唯一,决定一切。

为什么浏览器自动化最容易翻车?

不是因为慢,而是:

不一致。


解法:收敛成一条链路

我最后只做了一件事:

把所有路径收敛成一条。


核心方案(一句话)

只保留一条浏览器主链路:系统 Chrome + Browser Relay + DOM 读取


架构拆解(三层)

1️⃣ 浏览器固定为系统 Chrome

不用隔离浏览器,不新开实例。

直接复用已有环境:

  • X
  • GitHub
  • Gmail
  • 飞书
  • 各类后台

👉 本质:复用真实用户上下文


2️⃣ 控制方式固定为 Browser Relay

不是 MCP,不是 opencli。

👉 是真正接管当前 tab 的链路


3️⃣ 用 tab 状态判断是否成功

不要靠感觉。

看这个:

  • chrome: running (0 tabs) ❌
  • chrome: running (1 tabs) ✅

👉 这是分水岭


稳定性的关键5步

1️⃣ 默认 browser profile = chrome
(保证路径唯一)

2️⃣ 安装 Browser Relay 扩展
(只是开始)

3️⃣ 填对 gateway token
(极易出错)

4️⃣ 在目标 tab 手动点 ON
(真正 attach)

5️⃣ 禁止 fallback
(不允许偷偷换浏览器路径)


进一步优化(让它“像人”)

✅ 优化1:读取优先 DOM,不是截图

  • snapshot / evaluate → 结构数据 ✅
  • screenshot → 猜 ❌

👉 决定是否能连续操作


✅ 优化2:滚动用 JS

固定流程:

window.scrollBy(...)

然后:

  • wait
  • 再读取

👉 操作必须可重复,而不是临场发挥


调通后的变化(质变)

  • 不再新开未登录窗口
  • 能连续操作 X / GitHub
  • 能滚动 + 读取 + 点击
  • 不再“抽风式自动化”

你会明显感觉:

它不再是“偶尔成功的脚本”
而是“持续操作浏览器的代理”


三句总结(核心认知)

AI 不稳定,不是因为它不聪明
而是因为它活在多个浏览器世界里

浏览器自动化最大的问题
不是慢,而是上下文分裂

关键不是给 AI 一个浏览器
而是让它始终走同一条链路


后续

如果你也在做 AI Agent / 浏览器自动化,这个坑基本绕不过去。

我已经把这套方案整理成一个内部 skill:

👉 auto-chrome-control

后面会放到 DeepCarry 会员社区里。

相关文章

你的 OpenClaw 已经暴露在公网,正在被扫描

OpenClaw 爆火仅 2 个月,已有约 54 万个 Agent 暴露在公网,正面临被扫描与攻击的风险。许多用户误以为自己在“本地运行”,但实际上已将整个 AI Agent 系统暴露在互联网。风险不仅是页面访问,而是控制入口、上下文、API Key 与执行权限的全面暴露。一旦被发现,可能迅速演变为漏洞利用、资源滥用甚至实例接管。是否暴露取决于监听地址、公网 IP 和端口开放三项条件。AI Agent 时代的安全问题,本质不再是技术,而是认知——你暴露的不是服务,而是你的 AI 分身控制权。

2026年3月18日

到底什么是 AI Native(AI 原生)?

很多人听过 AI-native,却很难真正解释清楚。本文用一句话拆解 AI-native 的核心定义:不是更快使用 AI,而是把“完成任务的方法”沉淀为可复用、可验证、会进化的系统能力。文章通过结构模型、五级成熟度、自测方法与 7 天升级路径,帮助你判断自己所处阶段,并从“AI 使用者”进化为真正的 AI-native 构建者。

2026年2月20日

我见过最可怕的工位:没人,电脑在上班!AI员工,已经悄然到来......

AI员工正在从概念走向现实。部分科技公司已开始部署可持续运行的AI执行体,它们不再只是工具,而是能够接收任务、操作系统、跨流程执行并交付结果的“岗位能力”。从企业级Agent平台到开源框架的普及,AI执行能力正在被结构性释放。这并不意味着大规模裁员会立刻发生,但意味着组织将逐步从“人类执行结构”转向“人类判断结构”。未来的变化,不是岗位一夜消失,而是执行权的慢慢转移。真正值得思考的,是在这一趋势中,我们的能力结构是否具备不可替代性。

2026年2月12日

Openclaw( Clawdbot | Moltbot)为什么会突然刷屏?

Clawdbot(Moltbot)是一款本地运行的 AI Agent 项目,代表了 local-first AI 与个人 AI 执行层的发展方向。它通过权限委托在本地完成自动化任务,区别于传统云端聊天 AI。随着隐私、安全、成本与平台依赖问题加剧,Clawdbot 的走红及更名事件,反映出开发者对 AI 执行权、控制权与风险边界的重新关注。

2026年1月28日

评论区

总计 0
登录后可参与评论与点赞。 立即登录

评论加载中...

目录