从安全大模型到大模型安全，安全行业玩起了以“模”治“模”| 钛媒体深度-钛媒体官方网站

“国内很多用国外通用大模型来进行预训练以及微调，但现在市面上，已经有一些大模型被植入后门了。”王欣表示。

从前安全企业纷纷下场做安全大模型，如今无一不在谈大模型安全。

大模型发展过程中暴露出许多问题：数据泄露、结果不可控、数据偏见、AI幻觉......像是打开了潘多拉魔盒，随着AI使用门槛的降低，越来越多人可以比较容易地接触和应用到大模型，这或许会产生滥用问题，带来更加隐蔽、更具破坏力的风险。

近期，有关AI安全、大模型安全的热点事件不断，一如此前OpenAI第二季“宫斗大戏”，再次引发了全球范围内对AI安全的关注。国内国外政策、法规，也迎来新的探索与实践，安全行业探讨如火如荼，大模型风险从何而来？当下有哪些治理对策？未来的大模型安全防护又要注意什么？

AI安全“喜提”科技圈热搜

生成式AI的发展始终伴随着对安全的质疑。钛媒体App梳理发现，AI安全近期频繁“喜提”科技圈热搜，近10天，国内外围绕AI安全的热点事件或大型会议已不下5次。

其中，OpenAI“内斗”风波的延续性事件备受关注。美东时间5月14日，OpenAI联合创始人、首席科学家伊利亚·苏茨克沃（Ilya Sutskever）与 OpenAI超级对齐团队共同领导人简·雷克（Jan Leike）相继离开OpenAI。离职后的几天，简·雷克在社交平X上连发13条推文，曝光OpenAI及其领导层忽视安全而偏爱光鲜亮丽的产品，并指出OpenAI必须转型为一家将安全放在首位的AGI公司。

此外，近期系列讨论AI安全的国际会议在全球多地举办，钛媒体App观察发现，从会议透露的信息看，比较可喜的是，预防、解决AI安全问题逐渐从模糊的建议转变为具体的承诺与法则。

5月22日，在韩国首尔召开的第二届人工智能安全峰会上，OpenAI、谷歌、微软、智谱AI 等来自不同国家和地区的16家公司共同签署了前沿人工智能安全承诺（Frontier AI Safety Commitments），提出了三方面要点：确保前沿AI安全的负责任治理结构和透明度；基于人工智能安全框架，负责任地说明将如何衡量前沿AI模型的风险；建立前沿AI安全模型风险缓解机制的明确流程。

同日（当地时间5月21日），一向注重安全管理的欧盟也有了AI安全大动作：欧盟理事会正式批准《人工智能法案》（AI Act），这是世界上首部对人工智能进行全面监管的法案。AI Act按照使用方法而非技术本身造成的影响风险，将AI系统划分为不同等级，风险等级越高，管控越严格。高风险AI系统被规定了严格的透明度义务，而ChatGPT等大语言模型为代表的通用AI模型的要求则较低。

在最近的科技圈网红大会——欧洲最大科技创新盛会VivaTech大会中，特斯拉CEO埃隆·马斯克一如既往地热衷表达，他提出了对OpenAI和谷歌Gemini的担忧，认为这些公司训练的人工智能并没有在“最大程度地追求真相”，而是在“寻求政治正确”。这些行为“基本上可以说是在训练人工智能说谎”，这对人类来说是极其危险的事情。

可以预见，世界范围内对人工智能的监管规则会随着不断暴露的使用问题而越来越细分，法律法规的落地只会更加密集，大模型、人工智能应用平台要承担的安全责任会越来越多。不过，在人们对大模型安全的期待愈发浓厚的同时，首先要明确的是，大模型风险从何而来？

数据问题、模型算法问题

“现在国内在数据模型、算法等，较国外相差有一段距离，国内很多产业目前在用国外的通用大模型来进行预训练以及微调，可以看到，现在市面上已经有一些大模型被植入后门了。”杭州人工智能学会副秘书长、安恒信息研究院院长王欣指出，“当我们使用国外的一些大模型，将它变成我们单位或某一个行业的关键基础设施时，其产生的危害是核弹级的。”

不止是被植入后门，大模型时代的AI安全面临更为突出的问题在于数据安全、内容安全，其中包括业务安全、供应链安全、合规以及道德伦理风险。

“如果你让大模型生成一个带有攻击性的种族主义的笑话，它一定会拒绝，因为几乎所有的大模型都进行了价值观对齐，不会简单的让你绕过。但国内许多大模型是跟随国外的路子走的，训练数据、测试数据很多来自国外公开数据，包含这些违法信息。”永信至诚集团CTO、智能永信总经理张凯告诉钛媒体App。

也就是说，虽然存在AI对齐，但大模型并没有那么智能，如果换个方法，用一些指令、提示词，或一些绕过方式去压迫它，大模型则会因为竞争性矛盾给出回答。“所谓大模型安全就是数据集和算法设计的问题。”张凯表示。

钛媒体App了解到，常见的训练数据问题包括了数据偏见、数据错误、数据投毒三种情况。其中，除了引起监管警惕的种族歧视等偏见，数据偏见还体现在数据分布不均、抽样性偏差；而部分数据存在错误、冲突，则会导致大模型原生错误；另外，攻击者通过干扰数据投毒，则会干扰降低大模型的准确率。

训练模型算法面临的问题，则包括了可能出现的模型算法偏见以及模型算法逆向。模型算法偏见体现在用于训练的模型算法存在特征偏向、场景偏见，以及在模型微调阶段的人工干预偏见和认知偏见。模型算法逆向问题是指通过目标模型的输出，反推和恢复部分或全部训练数据，对训练数据隐私造成威胁。

大模型面临的问题与挑战，在不同的发展阶段表现不同，上述热议的大模型安全挑战其实大都围绕传统安全问题展开，多与网络安全、数据安全相关，焦点落在数据泄露、训练数据丢失等。

而大模型安全也正在或将面临中期挑战、长期挑战，“中期挑战表现为内容安全问题，这个阶段需要关注的是大模型生成，如AI换脸的虚假违规内容，被利用为作恶工具；以及提示注入攻击，幻觉问题、知识模糊等。长期挑战则是个公共议题，即要警惕大模型能力超过人类后会对人类造成危害。”360数字安全集团副总裁张锦章表示。

以模治模，用AI管AI

如何应对大模型带来的上述安全挑战？其实，AI在安全领域的使用也是“魔高一尺，道高一丈。”

科技部网络空间安全2030计划专家组成员、教育部信息技术新工科联盟网络空间安全工委会主任委员、俄罗斯国家工程院外籍院士胡瑞敏在刚刚举办的第12届西湖论剑·数字安全大会上表示：“安全隐患问题要求安全技术必须跟进，并且和大模型有机结合。”安恒信息董事长范渊也对钛媒体App指出：“AI让网络攻击的门槛更低，更难以防范。用AI来防控和治理AI，正在成为安全领域的必选项。”

钛媒体App了解到，目前，国内许多安全厂商已经开展了相关工作，诸如安恒信息、360集团、蚂蚁集团，都将“以模治模”、“用AI对抗AI”作为技术核心，运用于训练数据检测、清洗环节。也有学者提出让大模型相互博弈，进行对抗攻击测试。此外，永信至诚、绿盟科技等提出进行大模型安全检测评估，也是保护大模型安全的重要手段之一。

“通过训练数据检测小模型，对恶意数据、干扰数据进行检测、清洗，可以提高训练数据质量，保护数据不被投毒和样本攻击。”360数字安全集团副总裁李博对“以模治模”展开了具体阐释。他还提到，要对训练数据进行分类清洗，对不同类别数据进行语义比对、实时性校对、概率推荐筛选、知识蒸馏，来减少数据错误，提升训练数据的准确性。

不过，值得注意的是，清洗训练数据并不是要去除所有“有毒”数据，蚂蚁集团安全实验室首席科学家、可信AI负责人王维强表示：“在研究大模型研发过程中我们做了很多尝试，如果完全没有任何负面数据，训练出来的大模型可能就会成为一个‘傻白甜’，碰到有挑战的安全问题，就很容易掉到陷阱里面，但如果‘加毒’加得特别多，大模型就会变成黑模型，所以还得把‘消毒’和‘加毒’很好地融合起来。”

在模型算法安全方面，李博补充到，需要运用偏见矫正与模型加密。

通过偏见矫正策略，对训练过程中不同频率、不同级别的偏见数据和算法，赋予不同权重，减少或消除大模型的偏见。另外，可以通过加密存储、差分隐私、同态加密、安全多方计算、联邦学习、模型水印等，对训练模型的参数和算法进行保护，防止模型逆向攻击。

研究界也有学者提出，要让大模型相互博弈，进行对抗攻击测试。具体来讲，就是让两个大模型相互进行攻防对抗，由模型发现问题，模型解决问题。让一个模型（攻击大模型）给另一个模型(安全大模型)生成攻击性数据，安全大模型则通过训练迭代提高自己的能力。这种大模型在大模型的世界中相互提高安全水平方案的逻辑是：当攻击大模型的能力进化到超过所有人类发现问题的能力时，只需要安全大模型能够足够强地应对攻击大模型，则人类关心的安全问题基本解决。

“以模治模”的思路其实也适用于普通用户，利用多个模型交叉验证，识别AI安全风险。

中国工程院院士邬江兴表示，AI系统不可能绝对安全，如何权衡使用？要通过多样性来印证。他认为，在应用中应尽量避免使用单一模型，使用者无法判断单一模型是否在“一本正经地胡说八道”，如果其它模型也是这样的结果，那么使用者可以生成大致判断。

另外，多样性印证同样适用于黑客攻击带来的安全隐患，“任何人在某一个模型、某一个数据上做手脚是没用的，它可能对A模型有用，但对B模型没用，所以我们用交叉印证来验证。就像盲人摸象一样，一个人摸，可能认为象是圆柱体，但是多角度结合起来看才知道象是什么样子。局部的问题我们看不清楚，如果是多个维度看就能看清问题了。”邬江兴表示。

开展常态化安全测试评估

“企业对安全的需求通常包含了安全合规的需要，常态化安全测试评估已经成为实现AI大模型安全的必要前提。”张凯告诉钛媒体App。

5月24日，工信部印发《工业和信息化领域数据安全风险评估实施细则（试行）》。其中提出，重要数据和核心数据处理者每年至少开展一次数据安全风险评估。评估报告应当包括数据处理者基本情况、评估团队基本情况、重要数据的种类和数量、开展数据处理活动的情况、数据安全风险评估环境，以及数据处理活动分析、合规性评估、安全风险分析、评估结论及应对措施等。

在合规层面，国家接连颁布了针对生成式人工智能的相关管理办法和标准，《生成式人工智能服务管理暂行办法》（中央网信办等七部门联合发布）以及《生成式人工智能服务安全基本要求》（全国网安标委发布），都提出开展AI安全评估、建立常态化监测测评手段等要求。

那么，常态化的监测和数据安全评估应该如何有效实现？

钛媒体App了解到，不同的安全厂商针对该领域都有相应动作。其中，永信至诚的做法是构建一个可控的高度仿真环境，对大模型内容输入输出进行不断评估测试，类似飞机试飞前要做的风洞实验，形成一个“内容安全的数字风洞”。通过特异性的提问，测试出大模型是否会回答出一些违规的内容。绿盟科技的思路是使用动态提示词对模型进行诱导输出，以及根据不同攻击类型对大语言模型的输出内容进行安全性检测两方面，对模型输出内容进行安全性、合规性检测。

另外，诸如百度、腾讯、网易等大厂，中国信通院、公安部第三研究所、中国软件测评中心、浙江大学滨江研究院等也都开展了大模型检测或大模型安全测评。

随着世界数字技术院（WDTA）发布《生成式人工智能应用安全测试标准》和《大语言模型安全测试方法》两项国际标准（国际组织首次就大模型安全领域发布国际标准）的正式出台，大模型安全测试评估的要求与实践都在不断探索下一步。

至于未来，网络安全发展还存在许多不确定安全威胁。邬江兴院士提出，“未知的未知”是当前网络安全理论的“天花板”问题，“我们不知道有什么现象，也不知道何时发生。而当下用户侧与制造侧的网络安全责任及风险严重失衡。首要解决的是，打造一个基于内生安全构造的负责任的数字生态系统。”

邬江兴院士表示，内生安全理论与方法开辟了全球数字生态系统转型的新途径，这是世界浪潮。大模型时代，网络安全范式创新则不仅是数字产品设计理念的创新，还要构建开放且自主可控的生态环境。

“教育上，要从培养网安保镖向掌握内生安全理论方法的负责任的数字技术设计者转变。最后也是最重要的，安全要以人为中心。”邬江兴说。（本文首发钛媒体APP 作者 | 贾雨微编辑 | 秦聪慧）