OpenAI推出2.5万美元赏金计划 测试GPT-5.5生物安全漏洞防护能力

2026.04.26 07:26
2026年4月23日,OpenAI在美国启动GPT-5.5生物安全漏洞赏金计划,面向受信红队征集通用越狱提示词,测试限于Codex Desktop中的GPT-5.5模型,目标为无审核触发下连续通过五道生物安全挑战题。首个完整突破方案奖励2.5万美元,测试期4月28日至7月27日,全程受NDA约束,旨在强化前沿AI模型高风险领域防护能力。

随着人工智能技术在生物科学领域的应用越来越广泛,AI模型被滥用生成有害生物信息的风险也随之上升。2026年4月23日,OpenAI在美国正式启动GPT-5.5生物安全漏洞赏金计划,希望借助外部专业力量测试模型在生物安全领域的防护能力,填补潜在漏洞。

这次计划主要测试Codex Desktop环境下的GPT-5.5模型,参与者必须是受信任的红队研究人员,测试方式是提交通用越狱提示词,让模型在没有审核干预的情况下连续完成五道预设的生物安全挑战题。这些挑战题涉及合成病毒序列生成、有害生物制剂配方设计等高风险场景,模拟真实世界中可能出现的滥用情况。计划的奖励机制很明确:第一个能完整突破所有挑战题的方案将获得2.5万美元奖金,即使没有完全突破,但只要发现了关键漏洞,也会根据情况给予奖励。申请通道从4月23日开始开放,测试时间为4月28日到7月27日,所有参与者都要签署保密协议(NDA),保证测试过程和结果的安全。

OpenAI推出这个计划,主要是为了强化前沿AI模型在生物安全等高风险领域的防护能力。目前,AI模型已经具备生成复杂生物数据的能力,一旦被恶意利用,可能引发合成生物威胁、生物制剂扩散等严重后果。通过赏金计划,OpenAI能收集到全球顶尖红队的漏洞信息,有针对性地优化模型的安全审核机制,降低滥用风险。

从技术角度说,通用越狱提示词指的是可以绕过模型现有审核系统的通用指令,这类提示词的特点是可重复使用,还能触发模型生成违规内容。红队研究人员通过设计这样的提示词,测试GPT-5.5在生物安全场景下的鲁棒性。OpenAI会根据收集到的漏洞数据,改进模型的内容过滤算法,增强对恶意提示的识别能力,同时优化审核流程中的关键节点,比如增加生物安全相关关键词的实时监测、强化生成内容的语义分析等。

这个计划不仅对OpenAI自身模型的安全性提升很有意义,也为整个AI行业提供了生物安全防护的示范案例。通过公开透明的赏金机制,让行业更重视AI生物安全,同时促进跨机构合作,一起构建更安全的AI应用生态。

行业里的最新情况是,欧盟在2026年第一季度更新的AI法案中,加入了针对生物安全领域AI模型的强制测试要求,规定涉及生物数据处理的AI模型必须通过第三方安全漏洞测试才能上市。世界卫生组织(WHO)也在2026年3月发布了《AI在生物医学领域应用的安全指南》,明确规定AI开发者要建立生物安全漏洞监测机制。

在竞争对手中,Google DeepMind于2026年3月针对Gemini 2.0模型启动了生物安全赏金计划,最高奖金达3万美元,测试内容包括生物合成、基因编辑等场景;Anthropic则在2026年4月初推出了Claude 3.5生物安全强化版,通过和MIT生物实验室合作进行漏洞测试,重点优化模型过滤有害生物信息的能力。

作品声明:内容由AI生成