十款AI龙虾横评，谁是国产第一虾？-钛媒体官方网站

文 | 光锥智能，作者｜魏琳华，编辑｜刘俊宏、王一粟

开年爆火的OpenClaw，让我们一连吃了三个月的“国产龙虾大餐”。

从最先端上的云端版本，到后期号称“原生龙虾体验”的本地小龙虾，别说用户分身乏术，就连每天要追产品测评的我们，都追得眼冒金星。

它们带火的，不仅是一个产品，更是一种想象——“让AI替我打工”。

当大佬们纷纷晒出跑龙虾消耗的海量Token，当社交媒体上充斥着“让AI帮我干活”的炫酷截图，无数打工人心里都燃起了一个朴实无华的念头：我也想要一个能替我干活的小龙虾。最好便宜，最好好用，最好比我同事还靠谱。

但热闹是厂商的，作为用户，我却感到了一种空虚：产品刚发布我就安到电脑上，但报错报的人头皮发麻，一天时间可能都体验不了两个任务；复杂的活给它好像搞不定，不复杂的我为什么不用Manus，要用它？

一众虾之中，到底哪款虾能让我无痛拥有可以媲美OpenClaw的体验？

带着这样的想法，光锥智能测评了市面上10款小龙虾产品，从一个没有AI基础的用户视角出发，看看它们到底能不能扛得起测试“拷打”。

由于有的用户只想尝鲜用虾对付简单工作，有的用户想当“逮虾户”和虾一起向硅基生命的方向进化，针对不同需求，我们由浅入深地做了套测评：先从最简单的定时日报、搜集信息做起，再进阶到看看这批虾能不能玩转Skill，带我手把手完成大佬们同款的复杂任务。

先说结论，大多数虾都能搞定简单任务。但想干点难活，大部分虾都成了“时间杀手”，还不保证成功。

谁能让用户做“逮虾户”，谁让用户当“虾奴”？我们做了个大横评。

国产小龙虾，真能让打工人靠虾“摸鱼”吗？

“吃虾”的最开始，我的心情非常愉悦，因为每一款的安装体验都非常丝滑。

如果你自己尝试过部署OpenClaw，且没有开发经验，我敢打赌你肯定浪费过一天以上的人生，否则也不会让千元上门安装OpenClaw变成一门生意。

国产小龙虾的贡献，就是把“小龙虾”的门槛从专业级降到了消费级：

其中，云端小龙虾目前基本都能做到开箱即用，不需要用户操作，你和云端虾对话就像打开个AI模型网址的对话框一样简单。本地龙虾的安装也不难，和正常的电脑应用下载过程一样，只要你会从官网下载安装包，问题不大。

安装相当于起跑线，从配置开始，就是厂商们“八仙过海，各显神通”的时刻。

你不想要个冷冰冰的AI助手，想让它更像个人。好办，你可以给虾设定好你想要的性格。

比如飞书、阶跃、百度的龙虾，它们都有当下流行的性格配置（Soul.md），可以让你定义龙虾怎么称呼你、用提示词描述你想要的小龙虾“性格”，让它交流起来更像真人对话。

我在DuClaw上配置的龙虾性格

我把这批小龙虾的人设全都变成了“靠谱但爱吐槽的同事”，于是，阶跃虾会在跑任务时抱怨流程太复杂了，百度会说“放心交给我”。告别了AI的冰冷味儿，这种带点脾气的赛博同事，报错时好像也没那么气人了。

如果只能在电脑前用AI，那它的便利性就要大打折扣。“小龙虾之父”的初衷就是给自己找个远程办公的助手，所以能不能接入手机，也是一个关键的功能。

相比还要自己辛苦配置的OpenClaw，国内各大IM平台开始主动给龙虾“开后门”，现在大多只需要用户扫个码，再等上几分钟，平台自己就给你配置好了。

比如，微信做了插件欢迎各大龙虾扫码接入，飞书和QQ等产品现在都能做到一步扫码就完成连接。

龙虾建好了，虾能给你手机发消息了，现在我们就可以正式支配小龙虾干活。

到了干活环节，想象与现实的落差就出来了：用户的悲欢并不相通，虾与虾的脑子也并不一样好用。

先以测试AI日报任务为例，这是一个定时任务，需要AI不仅能够按照你的要求从各大信息源上扒到所需信息并整合成日报，还需要它每天按照固定的时间发给你。

测试结果令人意外：按照“第一次就能准时完成”的标准，我们直接筛掉了一半产品。

其中，第一次能做到准时发我的，包括智谱、KimiClaw、MiniMax、QClaw，剩下的几个报错理由各异，还要人工陪虾“改作业”。

云端vs本地的差异在这里体现得尤为明显。对于没有条件配备专用设备（如Mac mini）的用户来说，本地龙虾如果关机或者断网，定时任务的执行有可能受到影响。而云端版本可以做到每天稳定推送，不受本地设备状态限制。

再从内容质量的角度评估，智谱的AutoClaw、阿里JVS Claw和百度Duclaw给的信息更丰富全面，基本确保了是前一天的新鲜内容。也有虾出了时间和事实性错误，比如KimiClaw就出现了把去年新闻当成今年新闻的情况，错误明显。

光会做日报的小龙虾，只能算得上是路边一条。打工人也需要把各种工作中的简单需求丢给AI处理，看看它能不能真的办成各种杂活。

以需求较高的“文生图”任务作为测试标准，我们让每个虾都做一份之前爆火的Nano Banana风格的卡通风“一图介绍xxx”的主题图。介绍的对象则是自己。

从最终生成质量来看，阿里虾JVS Claw的表现一骑绝尘，它从Vercel团队的官方Skill网站找到了个人用户上传的技能，一口气给出了5张产品介绍图，虽然调用的是小红书生图的Skill，但整体风格已经满足了卡通讲解的需求。

除了阿里，阶跃星辰也调用了自家水产市场中的skill，这个skill明确用Nano Banana命名，最终产图虽然是英文版的，但卡通风格实现了，也符合了一张图讲解的要求。

其它几款产品虽然也通过丢给我文生图提示词或者接入API的方式生成了图片，虽然都做出来了，但和我想要的风格差了十万八千里。

“不是哥们，生成自我介绍你给我出这么个图吗”

说白了，任务执行的效果，最终还是靠小龙虾本身接入的模型理解能力如何、Skill库中的储备是否够丰富。虽然都接入Gemini的画图模型，但生成图片的效果，仍然因为龙虾本身的理解和调用情况产生了天差地别的效果。

“能用”和“好用”之间，往往隔着十万八千里。

进阶小龙虾，玩转大佬的同款Skill

进阶玩法的核心，是Skill生态。

为什么网上大佬们的小龙虾那么厉害？今天能做贾维斯，明天又能当理财管家？要解锁想象力，让龙虾办到更多复杂任务，用户是没有耐心打上几百字小作文教AI干活的。

互联网上丰富的Skill生态，就是小龙虾可以按需安装和拆卸“爪牙”。在开源生态中长起来的Skill，就来自于每个开发者的贡献——

当Ta有长期大量的同质化任务需求，比如每天都需要跑邮件来确定日程，就可以把这一套写给AI的提示词固定下来，下次再调用的时候就可以直接选择这个Skill执行，辅导孩子未必能有100%回报率，但教虾可以。

Skill的数量和质量，就代表了虾的扩展能力。

厂商的预装是用户好体验的开始，我让小龙虾们来搜索了一下上述这些产品初始预装的Skills数量，并做成表格发给我。表现突出的是智谱，完整找到了所有产品，并且给出了多数正确的结果。

智谱AutoClaw给出的表格

错的离谱的是腾讯的QClaw和MiniMax的MaxClaw，它们连“对标OpenClaw的产品”这个指令都无法理解，找成了字节扣子这类Agent产品，百度连产品也没筛出来，统计的对象甚至是公司。

其中，三种Skill基本成了装配的刚需：

Creator，让用户能按需创造自己的Skills；

Find Skill免去用户自己上Skill网站下载安装，它直接帮你在后台找到你需要的Skill并安装；Vetter则确保你安装的Skills安全，它会对每个需要安装的Skill审查一遍，避免带着恶意行为的Skill损害你的电脑。

但有的即使安装了Skill，却没有实现它该有的效果。

比如百度Duclaw也配置了安全相关的审查Skill，但它的做法是先安装，再提示用户有风险，被我们指出后才表示“下次会先审查”。这个“下次”来得未免太迟了。

skill生态的质量也很重要

在海外已有一些Skill网站的情况下，国内也有不少产品选择自建Skill生态，目前包括腾讯、阶跃星辰、猎豹的官方Skill商店有做相关的储备。比如阶跃星辰就做了一个5000+Skills的水产市场，里面涵盖了官方和用户自主上传的Skills，前文阶跃调用的Nano Banana相关Skill，就是来自于他们自己搭建的“水产市场”。

例：EasyClaw的Skill商店里，还标出了傅盛版小龙虾的同款技能

Skill固然重要，那么小龙虾能根据我的需求找到对的那个Skill吗？

我们让这些小龙虾都来找一个技能——前段时间很火的“龙虾办公室”可视化项目，你可以通过这个办公室界面，看到小龙虾是在办公、思考还是坐在沙发前摸鱼。QClaw由于自带这个功能，跳过本次测试。

虽然我下班没力气运动，但龙虾还能举铁图源QClaw

我让它们帮我搜集这种能搭建“小龙虾办公室”的Skill，多数都能找到对的项目，但在运行效果上，大家表现不一：

阿里的JVS Claw加载失败了一次后就运行成功，EasyClaw一次就安装成功了，算是反应速度比较快的；智谱审题失败后安装成了仪表盘，没联动也没有办公室界面。甚至有虾要给我自己写个代码，用沈腾的话说，就怕人“又笨又勤快”。

可以看到，单靠描述完成“找和安装”，对于绝大部分龙虾来说已经不是难题。但很多坏就坏在后面一连串的执行上。

我们又找了个稍微复杂一点的任务，让虾帮我接上自己的邮箱，整理好未读邮件的内容，相当于以后我都不需要看邮件，只需要AI告诉我，我就知道自己大概都收到了什么。

配置邮件这个需求看似简单，细究起来全是麻烦事：让AI帮我以接邮箱API的方式进行，所以AI还涉及到教我怎么开通相关配置，引导我开通邮箱API，接入的过程中，涉及到刷新令牌（Refresh Token）过期的情况，虾们还要帮我想想如何解决时间问题。

这是StepClaw盘了一遍自己到底都做了哪些工作的总结

看起来只需要接个API的事情，这十几个龙虾做起来，总共花了我3个多小时的时间。我明明想让AI帮我省事，但花在教它们的时间上，长得让人怀疑人生。

先执行完成的是阶跃星辰的StepClaw，虽然中间它无数次委婉提示我可以直接手动导入邮箱数据来让它分析（像极了我推活的同事），但在我坚持要求“不要让人类动一下手”后，它自己绕过了获取Token的坎，干脆自己写了个可以在网页端运行的脚本来自行读取Token给它。在它一遍遍催促我“要快”的情况下，终于连接成功了。

持续吐槽后，我连接成功的第一个案例

后面，Kimi Claw也写了个自动获取Token的脚本给我，但最终脚本点击不开，失败；智谱AutoClaw执着让我用命令行，但大多没有响应；MiniMax给的链接越来越抽象，它给我写好的脚本我也没办法运行，失败；EasyClaw纠结环境问题，两遍失败后才开始想办法，最终也没等到靠谱办法。

选择“走捷径”的是QClaw和百度的DuClaw、阿里的JVS Claw，这得益于它们找到的Skill用了更简单的方法，就是push我在Google上设置个专给应用使用的密码，就能无需获取我真正登录的密码信息直接看消息，不过阿里和百度都一次成功了，百度还记得我之前的要求，直接帮我把邮件总结的结果发过来了，赞！

QClaw已读不回

但QClaw似乎被系统设置堵住了，然后就是频发的“遇到困难睡大觉”，六次里有4次都响应失败，更别提怎么处理问题了。

可以说，即使能执行成功，没有编程基础的小白，能做的只是跟着虾的结果一遍遍操作，赌它会不会成功，然后在一次次试错中，要么成功，要么丧失耐心。

为什么虾之间表现差异这么大？相对复杂的任务，考验的是配置模型的能力和Harness的设计。

前者决定了模型能不能用它的Agent相关能力帮你搭些好用的工具，在遇到上述环境问题帮你解决问题。后者是最近风很大的Harness，这个词本身直译是马的挽具，用在Agent身上也一样——Harness就相当于Agent套的那层壳，所有工程化的配置加在一起，就是Harness。

模型能力决定了AI能否在遇到问题时自主找到解决方案。测试中我们发现，“便宜没好货”在AI领域同样适用。

比如用下来好用的智谱，一次统计表格的任务就花掉了我300积分（智谱增送的免费额度是500），相比来说，QClaw虽然没那么好用，但可能也和内置的模型便宜大碗有关系，毕竟能豪横地送我一天4000w Tokens的消耗量。

QClaw大气！

由于大部分类OpenClaw产品基本不支持外界接入其他模型，这一点在大模型创企上和云厂商的产品上比较明显。但类似EasyClaw、QClaw这类本地产品还是支持的，在模型不同的情况下，很难对比Harness的区别。

但从稳定性和自我修复的能力上评断，其中一些产品出现了明显的问题。比如EasyClaw、StepClaw都在我使用的时候出现过报错，前者没有“网关重启”的设置给我启动，后者虽然主推能拿阶跃自己的Agent助手“修理”StepClaw，但我多次尝试的效果并不好。

顺带一提，上面那俩我百思不得其解，最终还是靠阿里的JVS Claw一步步指导我怎么针对Windows系统写特定的网关重启命令行，才修好的。

阿里虾和我一点一点碰出来的命令行

到这里，你也明白了，靠养虾能解锁的上限其实很高，就看你想怎么用：

各大Skill网站相当于装满了武功秘籍的商店：做爆款小红书文案、让虾每天早上“自我学习进化”等玩法琳琅满目。你要想学习更多场景下脑洞大开的玩法，剩下的就是交给AI来替你去做。

但能做到什么程度，稳定不稳定、能不能“举一反三”，那就看各家产品靠模型和Harness各显神通了。

如同被指责套壳的Manus在一年内少有敌手、没被大厂成功抄作业，这类OpenClaw的平替产品，要想真正进化到好用的程度，还需要大家多下功夫。接下来就是怎么快速迭代到产品上，让用户们不再对着频繁死机、报错的小龙虾抱怨了。

结论篇：十只虾，到底谁更好用？

在我的电脑每隔一会儿就会弹出莫名其妙的命令行界面、安装数十种虾导致C盘爆红（因为有的虾不支持我改工作区到D盘）等一系列副作用后，测评结果也基本落幕了。

从稳定性、可用性的维度评判，云端比较推荐的是阿里云的JVS Claw，在面对一系列问题的时候，它基本没有报错，在日报任务、邮箱配置等任务上的表现也令人满意。

对比同类云端部署产品，它在产品社交上也比较完善。比如，百度和字节的虾都需要靠云盘文件上传的方式来传图片，字节的ArkClaw甚至需要手动配置网盘，或者接管云电脑来上传。但阿里的版本就能直接上传，和KimiClaw、MaxClaw这类有Agent产品基础的设计也比较接近。而且云电脑的设置意味着它能在云端操作一些模拟本地的任务方式，但Kimi们又没有云电脑模式。

本地端产品来说，表现比较突出的是阶跃星辰和智谱两家的产品：

其中智谱AutoClaw的稳定性更胜一筹，同样是基本没怎么报错的产品，它在搜索信息汇总表格的任务上都做到了第一档体验；阶跃星辰虽然稳定性上表现不佳，又给人一种“推事虾”的感觉，但日报、邮件连接任务表现也很出色，它能自己做个网页工具处理任务，这体验和虾帮你自动找工具、接API的体验接近。

排在中等的是KimiClaw、MaxClaw、QClaw、DuClaw，前两个稳定性没问题，只是在任务表现上处于中等水平；后两个不时会出现报错无反馈的情况，但没有出现无法修复的问题，可能和服务器有关，任务表现也是在中等水平。

印象最差的是WorkBuddy和ArkClaw，这两个非常明显的情况就是无法持续使用，比如WorkBuddy大规模报错的情况应该就出现了两次，虽然第一次是大规模流量涌入导致的问题，但后续也出现了长达两天的无响应情况，后续恢复之后回复速度快了、也能达到及格水平；ArkClaw则基本上问2-3句才能回复一次。当正常使用都变成了奢望，就更别提测试具体任务表现了。

无论哪种形态，稳定性和任务成功率才是决定用户体验的核心指标。再花哨的功能，不如稳定运行一次。

当然，“谁是国内OpenClaw平替”的争夺才刚刚掀开帷幕。

比起抢跑、先发的占领式更新，后续的更新和维护，决定了这些虾能不能持续出现在用户的电脑、手机上，而不是在短暂尝鲜后被卸载。

对比云端和本地产品也能看出，云端显然更适合当下用户对电脑安全的要求，毕竟本地端如果随便修改了电脑配置和文件，损失未必能通过它再还原；但从功能拓展上，靠着本地端权限开放的优势，小龙虾能做到的任务范围更广，表现也更惊艳。

第一波测评的尾声中，我们又看到了扣子版小龙虾的发布，以及QClaw V2版本的大更新等等。在用户吐槽难用、昂贵的当下，小龙虾的迭代还在加速进化。

爆款虾或许就在路上。