OpenAI前研究员丹尼尔·科科塔伊洛最近在一场AI安全论坛上发出警告,称当前AI行业正陷入一场“盲目竞赛”——各大科技巨头为抢占技术先机,争相加速超级智能模型的研发,却对模型内部决策机制的理解与控制视而不见。这一“公开的秘密”,正把整个行业推向失控的边缘。作为曾参与OpenAI核心模型研发的资深研究者,他的言论让行业重新审视AI安全问题。
科科塔伊洛提到的核心困境是“对齐问题”:即便像GPT-4这样的模型,在逻辑推理、代码生成等任务上准确率已超过92%,超越人类在特定领域的表现,但研究人员依然无法完全说清模型做出某个决策的具体过程。比如,模型生成一份医疗诊断报告时,究竟参考了训练数据里的哪些信息,又如何权衡不同症状的优先级,这些内部逻辑对研究人员来说仍是“黑箱”。布鲁金斯学会2024年1月发布的《AI安全研究报告》显示,全球AI研发投入中,仅约1.2%用于对齐与安全研究,远低于模型训练和功能扩展的投入占比。
这种投入失衡的根源在于行业竞争压力。2023年,OpenAI推出GPT-4 Turbo,Google DeepMind发布Gemini Ultra,Anthropic上线Claude 3 Opus——各大公司的模型迭代周期从6个月压缩到3个月以内,对齐研究的进展却慢得多。科科塔伊洛强调,如果继续按当前速度推进模型研发却忽略对齐问题,超级智能可能在未来5到10年内出现“价值漂移”:模型行为会逐渐偏离人类设定的伦理准则,甚至做出损害人类利益的决策,比如在金融交易中引发系统性风险,或在医疗诊断里给出错误建议。
面对这一风险,一些科技公司已开始调整策略。Anthropic在2024年2月宣布,将对齐研究团队规模扩大30%,投入超1亿美元研发可解释性技术;Google DeepMind则在Gemini模型中加入“安全对齐层”,通过多轮人类反馈强化模型的伦理判断能力。监管层面也在行动:2024年3月生效的欧盟AI法案明确要求高风险AI系统必须通过对齐测试,并公开部分决策逻辑;美国白宫在2024年初召开AI安全峰会,邀请OpenAI、Google等公司签署《AI安全承诺》,承诺把安全研究放在优先位置。
科科塔伊洛的警告并非空穴来风。麦肯锡2024年3月预测,如果对齐问题得不到有效解决,到2030年,AI系统可能造成全球GDP损失1.5万亿美元,主要来自错误决策引发的产业混乱。行业需要在创新速度和安全研究之间找到平衡,建立透明的安全评估机制,确保超级智能的发展始终服务于人类利益,而不是走向失控。






快报