Anthropic发布Claude Opus 4.8，重点是：“我不会骗你”-钛媒体官方网站

文 | 强调Next

今天凌晨，Anthropic发布了Claude Opus 4.8。距上一版Opus4.7只过了41天。

按照惯例，发布会上少不了一串亮眼的跑分：SWE-bench Pro从64.3%升到69.2%，数学测试USAMO拿了96.7%，综合推理评分比GPT-5.5领先121个Elo分……但Anthropic选择把发布的重心放在一个听起来很“软”的词上：诚实。

1 · 跑分之外，更重要的是不撒谎

过去两年，AI公司在发布模型时的叙事框架几乎千篇一律：更快、更强、更便宜。Anthropic这次的核心论点是：Opus4.8比上一代“更不会骗你”。

具体来说，他们的评测显示，新模型在发现自己写的代码存在缺陷时，主动报告的概率是Opus4.7的四倍。用Anthropic自己的话说，旧模型有时会“跳到结论上”，信心满满地汇报进展，哪怕证据并不支撑。测试过新模型的早期用户反映，Opus4.8更愿意在不确定的地方说“我不确定”，而不是给出一个听起来合理、但实际站不住脚的答案。

这个改变看起来不起眼，实则是很多企业在真正落地AI时碰到的核心痛点。一个会写代码但不会发现自己代码有问题的模型，放进生产环境是危险的。一个做了分析但不标注自己在哪里打了折扣的模型，给高管看的报告就需要花大量时间人工复核。可信赖度，在某些场景下比能力更值钱。

2 · AI开始接管“整个任务”

配合新模型同步上线的，还有两个功能，分量都不轻。

其中一个叫Dynamic Workflows，目前以研究预览版的形式放在ClaudeCode里。它的逻辑是：把一个大任务交给模型，它会先做规划，然后同时拉起数百个并行的子智能体分头干活，最后汇总验证结果。Anthropic给出的示例场景是对数十万行代码进行整库迁移。从提需求到代码合并，全程由AI主导推进。

这意味着AI在工程场景里的角色，正在从“写代码的助手”向“执行工程任务的主体”迁移。对技术团队来说，遗留系统改造、跨模块重构这类历来耗时又高风险的活，第一次有了被认真“外包”给AI的可能性。

另一个是努力程度控制，面向所有claude.ai用户开放。用户可以自己调节模型每次回复投入多少“思考量”，需要深度分析就调高，日常快速交互就调低，相应地也会消耗不同额度的使用配额。把成本与质量的权衡交给用户自己决定，这个思路倒是挺务实的。

3 · 价格没变

价格方面没有变化：输入$5、输出$25，每百万token，和Opus4.7一样。变的是FastMode，同样的旗舰模型质量，2.5倍速，价格比前代便宜了三倍，降到输入$10、输出$50。对于需要大批量调用的企业来说，这个变化比模型本身的能力提升更直接地影响部署决策。

4 · 更大的伏笔

发布稿里还藏着一条值得关注的信息：Mythos。

这是他们更高级别的模型，目前只在少数企业中小范围测试。Anthropic说，Mythos级别的模型将在“未来数周内”向所有客户开放，正在做的是完善安全防护机制。上个月Mythos的有限预览因为暴露出一些网络安全方面的隐患而被紧急踩了刹车，这次措辞谨慎，没有给出具体时间表。

与此同时，Anthropic今天还公布了650亿美元的H轮融资，估值来到9650亿美元，在账面上超过了OpenAI的8520亿美元。两家公司谁先上市、谁先过万亿，正在成为硅谷最受关注的悬念之一。

回到模型本身。Opus 4.8是一次定位清晰的迭代。没有革命性的代际更新，只是在现有基础上把可靠性、诚实性和长任务执行能力推进了一步。Anthropic自己也承认这是“适度但实质性的改进”。

留给我们的问题是，当AI开始学会说“我不确定”，人与AI之间的协作方式，需要怎么跟着调整？