
我花了好几个小时,终于把 OpenClaw 调到像人类一样控制浏览器了
这篇文章讲什么
AI浏览器自动化不稳定的根本原因并非模型能力不足,而是“浏览器上下文分裂”。当AI通过多种路径(如MCP、Playwright、扩展或本地命令)操作浏览器时,实际上处于不同的浏览器实例、profile与状态中,导致登录态丢失、操作混乱与行为不连续。解决方案在于将所有操作收敛到单一链路:复用系统Chrome,通过Browser Relay接管当前tab,并基于DOM而非截图进行页面读取。同时,需禁止fallback路径,确保环境一致性。最终,使AI从“偶发成功的脚本”进化为“稳定持续操作的浏览器代理”,实现接近人类的自动化体验。
适合谁看
适合关注ai、agent、openclaw的读者。
核心观点
AI浏览器自动化不稳定的根本原因并非模型能力不足,而是“浏览器上下文分裂”。当AI通过多种路径(如MCP、Playwright、扩展或本地命令)操作浏览器时,实际上处于不同的浏览器实例、profile与状态中,导致登录态丢失、操作混乱与行为不连续。解决方案在于将所有操作收敛到单一链路:复用系统Chrome,通过Browser Relay接管当前tab,并基于DOM而非截图进行页面读取。同时,需禁止fallback路径,确保环境一致性。最终,使AI从“偶发成功的脚本”进化为“稳定持续操作的浏览器代理”,实现接近人类的自动化体验。
AI 浏览器自动化不稳定,99%不是模型问题
我刚把 OpenClaw(龙虾🦞)调到像人类一样稳定控制浏览器,才真正搞明白这件事。
很多人遇到的是这种情况:
- 一会儿乱点按钮
- 一会儿新开窗口
- 一会儿掉登录态
- 一会儿靠截图“猜页面”
- 一会儿像失忆一样不知道自己在哪个 tab
看起来像什么?
👉 模型不稳定
👉 自动化能力不够
其实都不是。
真正的问题只有一个
AI 没有活在同一个浏览器世界里。
表象:你以为它在一个浏览器里
我一开始也以为很简单:
让 OpenClaw 控制我正在用的 Chrome:
- 打开 X
- 搜索
- 滚动
- 点链接
- 切 tab
听起来很基础对吧?
结果一上来就崩:
- 有时候用我的 Chrome
- 有时候新开一个浏览器
- 有时候有登录态
- 有时候又变未登录
很多人会觉得:
- cookie 丢了 ❌
- 会话过期 ❌
- 网站抽风 ❌
不是。
本质:浏览器上下文分裂
OpenClaw 在“打开浏览器”这件事上,可能会走很多路径:
- browser_* 工具
- Playwright MCP
- Chrome extension relay
- opencli
- shell 直接拉起 Chrome
这些路径表面一样,本质完全不同:
- 不同 profile
- 不同 cookie
- 不同 tab
- 不同 DOM 状态
结果就是:
你以为 AI 在连续操作
其实它每一步都在不同浏览器里
核心结论
浏览器链路是否唯一,决定一切。
为什么浏览器自动化最容易翻车?
不是因为慢,而是:
不一致。
解法:收敛成一条链路
我最后只做了一件事:
把所有路径收敛成一条。
核心方案(一句话)
只保留一条浏览器主链路:系统 Chrome + Browser Relay + DOM 读取
架构拆解(三层)
1️⃣ 浏览器固定为系统 Chrome
不用隔离浏览器,不新开实例。
直接复用已有环境:
- X
- GitHub
- Gmail
- 飞书
- 各类后台
👉 本质:复用真实用户上下文
2️⃣ 控制方式固定为 Browser Relay
不是 MCP,不是 opencli。
👉 是真正接管当前 tab 的链路
3️⃣ 用 tab 状态判断是否成功
不要靠感觉。
看这个:
- chrome: running (0 tabs) ❌
- chrome: running (1 tabs) ✅
👉 这是分水岭
稳定性的关键5步
1️⃣ 默认 browser profile = chrome
(保证路径唯一)
2️⃣ 安装 Browser Relay 扩展
(只是开始)
3️⃣ 填对 gateway token
(极易出错)
4️⃣ 在目标 tab 手动点 ON
(真正 attach)
5️⃣ 禁止 fallback
(不允许偷偷换浏览器路径)
进一步优化(让它“像人”)
✅ 优化1:读取优先 DOM,不是截图
- snapshot / evaluate → 结构数据 ✅
- screenshot → 猜 ❌
👉 决定是否能连续操作
✅ 优化2:滚动用 JS
固定流程:
window.scrollBy(...)
然后:
- wait
- 再读取
👉 操作必须可重复,而不是临场发挥
调通后的变化(质变)
- 不再新开未登录窗口
- 能连续操作 X / GitHub
- 能滚动 + 读取 + 点击
- 不再“抽风式自动化”
你会明显感觉:
它不再是“偶尔成功的脚本”
而是“持续操作浏览器的代理”
三句总结(核心认知)
AI 不稳定,不是因为它不聪明
而是因为它活在多个浏览器世界里
浏览器自动化最大的问题
不是慢,而是上下文分裂
关键不是给 AI 一个浏览器
而是让它始终走同一条链路
后续
如果你也在做 AI Agent / 浏览器自动化,这个坑基本绕不过去。
我已经把这套方案整理成一个内部 skill:
👉 auto-chrome-control
后面会放到 DeepCarry 会员社区里。
相关文章
你的 OpenClaw 已经暴露在公网,正在被扫描
OpenClaw 爆火仅 2 个月,已有约 54 万个 Agent 暴露在公网,正面临被扫描与攻击的风险。许多用户误以为自己在“本地运行”,但实际上已将整个 AI Agent 系统暴露在互联网。风险不仅是页面访问,而是控制入口、上下文、API Key 与执行权限的全面暴露。一旦被发现,可能迅速演变为漏洞利用、资源滥用甚至实例接管。是否暴露取决于监听地址、公网 IP 和端口开放三项条件。AI Agent 时代的安全问题,本质不再是技术,而是认知——你暴露的不是服务,而是你的 AI 分身控制权。
2026年3月18日
到底什么是 AI Native(AI 原生)?
很多人听过 AI-native,却很难真正解释清楚。本文用一句话拆解 AI-native 的核心定义:不是更快使用 AI,而是把“完成任务的方法”沉淀为可复用、可验证、会进化的系统能力。文章通过结构模型、五级成熟度、自测方法与 7 天升级路径,帮助你判断自己所处阶段,并从“AI 使用者”进化为真正的 AI-native 构建者。
2026年2月20日
我见过最可怕的工位:没人,电脑在上班!AI员工,已经悄然到来......
AI员工正在从概念走向现实。部分科技公司已开始部署可持续运行的AI执行体,它们不再只是工具,而是能够接收任务、操作系统、跨流程执行并交付结果的“岗位能力”。从企业级Agent平台到开源框架的普及,AI执行能力正在被结构性释放。这并不意味着大规模裁员会立刻发生,但意味着组织将逐步从“人类执行结构”转向“人类判断结构”。未来的变化,不是岗位一夜消失,而是执行权的慢慢转移。真正值得思考的,是在这一趋势中,我们的能力结构是否具备不可替代性。
2026年2月12日
Openclaw( Clawdbot | Moltbot)为什么会突然刷屏?
Clawdbot(Moltbot)是一款本地运行的 AI Agent 项目,代表了 local-first AI 与个人 AI 执行层的发展方向。它通过权限委托在本地完成自动化任务,区别于传统云端聊天 AI。随着隐私、安全、成本与平台依赖问题加剧,Clawdbot 的走红及更名事件,反映出开发者对 AI 执行权、控制权与风险边界的重新关注。
2026年1月28日


评论区
总计 0评论加载中...