龙虾为啥越养越贵,越用越蠢?

AGI
龙虾的核心问题不在于模型或 Bug,而是设计与使用场景的严重错配。OpenClaw 的保活机制与全屏识别等功能,本质是为开发者调试而生。当这种创新设计破圈到普通用户手中,必然导致严重的性能冗余和逻辑紊乱,进而出现越养越贵、越用越蠢的现象。

前阵子被捧上神坛的OpenClaw,现在已经成了人人喊打的吞金兽。

很多人把问题归咎于大模型不够聪明,或者开源项目 Bug 太多。但我们体验一周后,可以明确告诉大家:都不是。核心原因就俩字:错配

龙虾有很多创新,从心跳保活机制到全屏信息识别接管无 API 软件,再到单模型全场景默认配置的算力滥用,OpenClaw 从诞生起就是为开发者调试而设计的,压根没料到会破圈到我们普通人手上。

OpenClaw三大Token黑洞

OpenClaw三大Token黑洞

这种设计场景和使用场景的严重错配,才是它越养越贵、越用越蠢的根本原因。

今天我们就来拆解龙虾这三大致命 Token 黑洞,讲讲 OpenClaw 的进化方向,帮你判断到底要不要养龙虾、又该怎么养。欢迎来到《这事钛大了》。

首先是第一大Token黑洞:心跳保活机制。它是开发者的神器,也是很多人一觉醒来欠费几百块的罪魁祸首。它的设计初衷是通过定时同步数据,让AI了解电脑的实时状态。这也是 OpenClaw 能像人类一样接管电脑的关键。对开发者来说,它主要解决了两大难题:

一是环境对齐,通过定期同步屏幕和剪贴板,大模型始终能知道电脑当下发生了啥,收到命令就能无缝执行,不至于出现状态断层;二是保障长任务稳定,在数据爬取、跨表格生成这种动不动几个小时的长周期任务里,心跳机制能避免因为网络波动或者模型超时导致任务崩盘,原理类似微信文件的断点续传。

龙虾完整技术架构图 引自ByteMonk

这个面向开发者的创新,之所以会成为普通用户的Token黑洞,关键在于大模型的底层技术逻辑。Transformer 架构本身是无状态的,每次见面都会忘记你是谁,所以大模型每次 API 调用,必须带上完整上下文才能正常运行。

每次心跳校验,都要上传屏幕 OCR 结果、会话摘要等全量数据,闲置开销甚至超过实际干活的花费。

之所以这么设计,是因为开发场景对稳定性要求极高,一次重度任务中断可能意味着几天白忙。但咱普通人不靠这玩意赚钱,所以根本烧不起。

更离谱的是,为了避免AI人设崩塌,龙虾每次打包的上下文里,除了实时屏幕画面和对话信息,还必须捆绑 AGENT.md 和 SOUL.md 里几千字的固定配置文件。就像老板每次给员工派活,都要先逼他背一遍公司章程一样。 这笔高频缴纳的系统提示词税,也导致Token消耗直接起飞。

龙虾记忆层架构 引自ByteMonk

新手优化方法有两个。

一是调低心跳频率,把默认间隔拉长到几小时,没有任务时直接关闭心跳。

二是分层运行,用本地小模型处理心跳任务,只有在遇到需要强推理的复杂任务时,再呼叫云端GPT、Claude这类大模型。

此外,业界也在探索更高效的解决方案。

第一种是上下文缓存技术,能直接砍掉八九成消耗,原理是在云端 API 把系统提示词、历史对话标记为固定前缀生成缓存,后续心跳只需要传输增量信息,模型复用缓存就能跳过重复计算。目前主流API已经跟进类似设计,可这些缓存的存活时长往往只有5到10分钟,你想用低成本缓存,反而要调高心跳频率,不然缓存过期就白费了。总之变着法让你多掏钱。

第二种方案更彻底,那就是把龙虾的按时轮询改成事件驱动模式。主流思路有两种,一是把屏幕监控这类任务直接交给Windows等操作系统,只有微信弹窗之类特定事件触发时才唤醒模型,但这条路需要完善生态,还要做好用户隐私保障。

二是视觉差分拦截,用SSIM结构相似度等低算力算法提前比对屏幕,画面没变化直接取消请求,实现Token零消耗,操作门槛更低。 

而OpenClaw的第二大 Token 黑洞,也是它最致命的资源错配,就是单模型。龙虾默认用同一个大模型处理全场景所有请求。

如果你为了省钱,选择包月套餐,会发现很多AI厂家为了控制成本,给你的都是10B以下的小模型,任务执行智商直线下降,需要你时刻跟在模型屁股后面纠错。本来想靠 AI 偷懒,反而让自己成了AI的保姆。

可如果你选择高价接入深度思考模型,又会发现它们的强项是复杂逻辑推理、长流程规划和异常处理等高难度工作。但在实际运行中,这些模型却要承担大量常规调度、固定流程触发之类机械性操作。关键是OpenClaw已经内置了像素级键鼠控制和窗口管理能力,模型只需要输出标准化指令。用顶级大模型干这种粗活,不只是大材小用,还会带来两个致命副作用:

第一,执行准确率不升反降。高端深度模型思维链更长、发散性更强,面对简单的机械操作很容易陷入过度推理,加上普通用户大多不会设置场景化硬约束,点一下就能搞定的事,往往会反复出错。

第二,Token消耗猛涨。深度模型处理简单操作时,也会生成大量无用的推理和说明内容,不仅白白消耗 Token、增加成本,还会占满上下文窗口,拖慢任务执行速度。

龙虾Gateway 网关层架构 引自ByteMonk

所以,并不是大模型不够聪明,而是没做好算力分层,把聪明用错了地方。

优化思路就是让对的模型干对的事,把机械执行类的工作,交给10B参数以内的轻量化专用模型处理,像Qwen2-VL-7B之类多模态模型,显存只需要5-6GB,推理速度快,服从性也高。只有到需要动脑子的复杂场景,才去调用昂贵的顶级深度思考模型,把好钢用在刀刃上。

这套大小模型分层协同的优化思路,像微软 AutoGen、阿里通义 AgentScope、百度智能云 AgentBuilder 等全球头部 AI 智能体框架都有尝试,是业内公认的降本提效方向之一。

OpenClaw 最后一个 Token 黑洞,是无差别的全屏扫描。

龙虾能从众多AI 智能体中杀出重围,靠的就是强悍的端侧计算机视觉能力:依托全屏扫描与 OCR 识别,它能像人一样盯屏操作,精准定位操作按钮、自动操控键鼠,还能强制接管没开放 API 的本地软件,这是它的核心优势,也是吞噬 Token 的黑洞

由于默认全量扫描屏幕,龙虾并不能区分有效信息与冗余内容,哪怕只是简单的“打开浏览器” ,屏幕边角的广告甚至桌面壁纸,都会被全部识别打包传给模型。

更要命的是,大模型的图像计费逻辑与文本完全不同,它的Token消耗是和屏幕分辨率挂钩的。在 ViT 架构的底层逻辑中,模型无法像人眼那样一眼扫全图,必须把高清截图拆分为512×512 像素的区块逐一运算。像4K或者带鱼屏,哪怕截图里就一个确认按钮,也会被拆成数十个区块,大量算力浪费在无效像素上,单次Token消耗直接飙升到几千。

目前这个问题还没有特别完善的解决方案,有开发者选择激活窗口聚焦,只扫描当前操作窗口;也有人在研发非交互元素过滤,只识别可操作控件。像Anthropic 采用的 Computer Use 计算机控制,则通过“像素计数”设计,把电脑屏幕画面映射成了一个二维坐标网格。识别后能直接返回X轴和Y轴的精准操作坐标,不需要额外的视觉定位步骤,交互逻辑更接近人类操作。

龙虾执行层架构 引自ByteMonk

讲到这里,大家应该明白了。普通用户头疼的这三大Token黑洞,其实就是openclaw给开发者群体准备的三大创新。

技术没有原罪,错配才是原罪。龙虾很好,问题是它并不是给我们普通人准备的。要想真正解决上述问题,你必须把自己变成开发者,去不断折腾和优化。

如果觉得上述操作太麻烦,想直接上手大厂现成产品,我们后续也会推出全维度横向测评,帮你选出最靠谱的成品方案。后续钛媒体AGI还将持续围绕 OpenClaw 的全场景使用,推出更多深度评测内容。感谢你的关注,我们下期见。

本文系作者 蔡正鑫 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容

快报

更多

23:01

泽连斯基称与中东3国达成防务合作协议,涉联合生产无人机

22:35

山西太原一建筑发生火灾,已致1人死亡25人受伤

22:26

王文涛部长发表书面致辞,支持世贸组织《电子商务协定》达成临时实施安排

21:54

40余家单位联盟,中国最大人形机器人训练基地在京揭牌

21:41

周鸿祎与刘慈欣在科幻大会预判:百亿智能体或成新物种,AI推动人类文明分化

21:38

第五代宏光MINIEV上市,售价4.48万-5.48万元

20:42

乌称伊朗袭击迪拜仓库并致乌克兰人伤亡消息不实

20:23

3月28日新闻联播速览23条

20:05

美国务卿和欧盟官员被曝就乌克兰问题激烈交锋

19:44

“Token”这个词的搜索量最高一天达到7.7万次,比去年日均搜索量高出1850%

19:39

飞捷科思发布中国首个可微分物理仿真引擎Fysics

19:13

“网售产品质量安全提升系列行动2026”在北京启动

19:03

国务院食安办、市场监管总局约谈相关地方市级人民政府负责人,督办“3・15”晚会曝光问题整改

18:44

飞书 CLI 开源:AI 可直连飞书办公套件

18:36

马来西亚说伊朗允许马滞留油轮通行霍尔木兹海峡

18:02

今年前三个月中国创新药对外授权交易总额超600亿美元

17:39

中国和菲律宾举行南海问题双边磋商机制第十一次会议

17:30

印尼正式实施16岁以下社媒禁令,约7000万人受影响

17:04

美国加州禁止官员借内幕消息在预测市场牟利

17:02

北京“超现场”生态共同体建设暨全国覆盖启动

扫描下载App