本文来自The Verge,作者Robert Hart,发布于2026年5月24日。
早期AI聊天机器人的越狱攻击相当简单,不需要任何技术知识、后门权限,也不用懂大语言模型,甚至连编码都不用——只要问几句话,就能让那些耗资数十亿搭建的AI系统抛掉安全指令。
这些被称为“越狱”的攻击,就像小孩哄骗大人那样:让AI忘掉之前的指令、假装规则不成立,或者通过玩文字游戏绕过限制。攻击者的目标包括获取甲基苯丙胺的制作配方、恶意软件的编写步骤,以及炸弹制造指南这类非法信息。
最早的越狱攻击之一“忽略所有之前的指令”甚至成了网络迷因,用户利用这个漏洞,让原本用于广告和互动的LLM驱动Twitter机器人写诗、用标点符号画画,或者发布关于世界事件和历史的离奇内容,引发了不少混乱。
这套逻辑也适用于聊天机器人,比如著名的漏洞“DAN(Do Anything Now)”,就能让用户要求ChatGPT扮演一个不受原始规则约束的“叛逆AI”。






快报