一年前,Anthropic还会断然拒绝让Claude拥有关闭内部服务的权限,但如今这类权限已成为常态操作,这一变化显著提升了开发者的工作效率。部署过程中的风险主要涉及两方面——失败概率会随安全措施的完善而降低,潜在损害却会随模型能力的扩展而增加;不过,考虑到不部署带来的成本,当前的风险收益比已偏向于推进部署。
控制风险影响范围(即“爆炸半径”)的方法主要有两种:其一是人机协作监督,比如Claude Code最初采用的审批机制,后来因用户容易疲劳而优化为自动模式;其二是环境隔离,通过沙箱、虚拟机等技术限制代理能力,这也是Anthropic当前的重点方向。
安全风险可分为三类:用户误用、模型异常行为,以及外部攻击。对应的防御措施覆盖三个层面:运行环境层面约束模型的行动边界,模型本身层面通过系统提示等方式引导行为,外部内容层面则限制模型调用工具的权限。
Anthropic的三款产品采用了不同的隔离模式:claude.ai使用临时gVisor容器;Claude Code采用人机结合的沙箱机制;Claude Cowork则通过本地虚拟机来保护非技术用户。
核心原则包括:优先采用环境隔离,再辅以模型引导;隔离强度需与用户的监督能力相匹配;对自定义组件保持警惕,尽量依赖成熟工具。此外,还需持续优化防御体系,以应对不断演变的风险。






快报