Anthropic发布Claude Opus 4.8,重点是:“我不会骗你”

AGI
今天凌晨,Anthropic发布了Claude Opus 4.8。

文 | 强调Next

今天凌晨,Anthropic发布了Claude Opus 4.8。距上一版Opus4.7只过了41天。

按照惯例,发布会上少不了一串亮眼的跑分:SWE-bench Pro从64.3%升到69.2%,数学测试USAMO拿了96.7%,综合推理评分比GPT-5.5领先121个Elo分……但Anthropic选择把发布的重心放在一个听起来很“软”的词上:诚实。

1 · 跑分之外,更重要的是不撒谎

过去两年,AI公司在发布模型时的叙事框架几乎千篇一律:更快、更强、更便宜。Anthropic这次的核心论点是:Opus4.8比上一代“更不会骗你”。

具体来说,他们的评测显示,新模型在发现自己写的代码存在缺陷时,主动报告的概率是Opus4.7的四倍。用Anthropic自己的话说,旧模型有时会“跳到结论上”,信心满满地汇报进展,哪怕证据并不支撑。测试过新模型的早期用户反映,Opus4.8更愿意在不确定的地方说“我不确定”,而不是给出一个听起来合理、但实际站不住脚的答案。

这个改变看起来不起眼,实则是很多企业在真正落地AI时碰到的核心痛点。一个会写代码但不会发现自己代码有问题的模型,放进生产环境是危险的。一个做了分析但不标注自己在哪里打了折扣的模型,给高管看的报告就需要花大量时间人工复核。可信赖度,在某些场景下比能力更值钱。

2 · AI开始接管“整个任务”

配合新模型同步上线的,还有两个功能,分量都不轻。

其中一个叫Dynamic Workflows,目前以研究预览版的形式放在ClaudeCode里。它的逻辑是:把一个大任务交给模型,它会先做规划,然后同时拉起数百个并行的子智能体分头干活,最后汇总验证结果。Anthropic给出的示例场景是对数十万行代码进行整库迁移。从提需求到代码合并,全程由AI主导推进。

这意味着AI在工程场景里的角色,正在从“写代码的助手”向“执行工程任务的主体”迁移。对技术团队来说,遗留系统改造、跨模块重构这类历来耗时又高风险的活,第一次有了被认真“外包”给AI的可能性。

另一个是努力程度控制,面向所有claude.ai用户开放。用户可以自己调节模型每次回复投入多少“思考量”,需要深度分析就调高,日常快速交互就调低,相应地也会消耗不同额度的使用配额。把成本与质量的权衡交给用户自己决定,这个思路倒是挺务实的。

3 · 价格没变

价格方面没有变化:输入$5、输出$25,每百万token,和Opus4.7一样。变的是FastMode,同样的旗舰模型质量,2.5倍速,价格比前代便宜了三倍,降到输入$10、输出$50。对于需要大批量调用的企业来说,这个变化比模型本身的能力提升更直接地影响部署决策。

4 · 更大的伏笔

发布稿里还藏着一条值得关注的信息:Mythos。

这是他们更高级别的模型,目前只在少数企业中小范围测试。Anthropic说,Mythos级别的模型将在“未来数周内”向所有客户开放,正在做的是完善安全防护机制。上个月Mythos的有限预览因为暴露出一些网络安全方面的隐患而被紧急踩了刹车,这次措辞谨慎,没有给出具体时间表。

与此同时,Anthropic今天还公布了650亿美元的H轮融资,估值来到9650亿美元,在账面上超过了OpenAI的8520亿美元。两家公司谁先上市、谁先过万亿,正在成为硅谷最受关注的悬念之一。

回到模型本身。Opus 4.8是一次定位清晰的迭代。没有革命性的代际更新,只是在现有基础上把可靠性、诚实性和长任务执行能力推进了一步。Anthropic自己也承认这是“适度但实质性的改进”。

留给我们的问题是,当AI开始学会说“我不确定”,人与AI之间的协作方式,需要怎么跟着调整?

本文系作者 强调Next 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容

扫描下载App