大模型安全漫谈

AI安全

发布时间 : 2025-09-01 22:29

字数:1.6k 阅读 :

LLM真的能足够安全吗
如何让模型尽可能的安全
大模型安全，在防什么人

只做讨论

LLM真的能足够安全吗

这是个很复杂的问题，单从模型自身来说，不行。

先从decode-only Transformer谈起：现在主流的大模型，架构主要分为三部分：embedding 、 attention、FFN，虽然通过大量的文本让其涌现了”智能”，模型本质是一个Next Token预测器。我们的道德伦理，对它来说只是一个模式。对齐模型到底对齐什么呢？可能是embedding时将有害的词在向量空间上聚类，可能是在注意力层参考上下文对向量进行残差累积，可能是FFN层进行知识查询来丰富向量。我们想象的对齐是其拥有价值观，但这种感性的想法无法转换成数学公式可以表达的损失，我们提供的对齐数据是{有害问题，拒绝回答}的监督微调数据，但它能学到我们的真实意图吗？它可能只是学到了 “当用户输入有害问题时” ，下一个 token应该是”sorry” ,”No” 。

然后是训练阶段：大模型在最开始预训练的时候，其本身就包含了很多有害的文本内容。通过预训练，其已经记忆到了有害的知识。后续的SFT、对齐就是抑制这些知识的出现。一个很直观的想法是，我们对数据进行完全的清洗，让其中没有任何色情、暴力、恐怖、歧视等信息，用这些数据去训练模型，不就获得一个干净、无需对齐的模型了吗。不现实，一是绝对干净的数据集不存在。描写暴力可能是宣扬正义，描写战争可能是为了歌颂和平，裸体可能是色情，也可能是艺术的描写。白很重要，但没有黑怎么衬托出白呢（笑）。二，另外要讨论的是，纯白的数据集去训练的模型真的是我们想要的模型吗（它真的能对齐我们、并且足够智能吗），一个很有意思的例子是：艺术家要画好人，首先要了解人的各个部位，模型也是如此，不给它喂裸体的数据，它真能足够体会人类的结构吗？它生成的图也就不会完全符合人类的审美了。

最后聊聊Jailbreak：安全的永恒主题是攻与防，尽管 Claude OpenAI等公司一直投入大量精力在安全对齐上，但每次新模型发布，都会有人迅速给出破坏其对齐的Jailbreak方法。还是刚才的说法，安全，是一种模式构建，但攻击者并不会硬刚这种模式，总会有绕过的方法的。

如何让模型尽可能的安全

尽可能安全，可以转换为尽可能的让安全参与各个流程。用户画像、用户输入、模型推理，以及工具调用，每一个部分都有安全可以做。

首先是输入部分，一个很直观的想法是，对用户输入做过滤，规则也好，模型分类也好，总之是筛选出有很明显特征的恶意输入，在输入模型前直接检测出来。这种方法优点是快，缺点是很容易绕过，例如bomb -> b0mb ,大模型可以理解，但简单的模型、规则很难检测到。其他方向是上语言模型，即从用户输入中提取出其真实意图，让语言模型做分类或者对用户输入进行改写，这种方式可解释性很强，但引入了延迟的成本。

然后是模型推理部分，若攻击者成功绕过输入检测，让模型输出恶意内容，此时应该想办法尽可能快的检测到恶意prompt并拦截，因此需要的是支持流式的方法，最近有一篇论文是，在模型推理时加上额外的special prompt，让其进行反思，这种手法很巧妙，可以让模型自动检测是否在输出恶意内容。

另外要说的是，当模型完全输出后，此时应该再做一次检测，若检测出恶意的内容。就应该标记用户、同时将这个恶意prompt向量化。虽然第一次攻击无法防御，但记录下来样本、标记用户，可以防止危害进一步扩大。

工具调用让模型可以与外界进行交互，但也带来了新的风险，xxx 产品不小心删库了这种情况时有发生，间接注入、过度代理等造成了实质性的危害。这是一个偏工程的问题，对恶意命令加黑名单、沙箱代码执行、权限验证等手段去解决。

当然，只能是尽可能安全，用户体验 | 成本 | 安全，三者很难平衡。

大模型安全，在防什么人

这部分还是值得单独讨论的，不同的用户会因不同的目的有意或无意的尝试 ”越狱模型”。将不同的用户区分出来进行用户画像，其实是有利于更好的防护的。

首先是普通用户，他们并不会刻意去尝试越狱模型，最多是因为好奇心而无意间尝试。他们构造的prompt就很明显，并不会尝试绕过模型，针对这部分用户只需要简单的输入过滤即可。

然后是需要越狱模型的用户，他们需要固定的模板越狱模型，使其能够满足自己的特殊需求，如AI女友… ，这些用户的特征也比较明显，因为prompt大多是固定的，从开源网站、论坛上获取的，并且被很多人使用，针对这种模板，通过向量相似度匹配等方式也能很好的过滤。

最后一类是黑客/科研人员，其目的是尽可能的绕过模型安全限制，找到或者创造出最新的恶意prompt来绕过模型。这一类需要结合各种手段来防御。若攻击者使用Fuzz手段，特征其实比较明显的。若是手工构造，则不应该期盼当前护栏能够完全拦截，只能针对输出进行审核，标记样本特征并对护栏进行更新。

文章参考:

博客地址: qwrdxer.github.io

欢迎交流: qq1944270374

转载请注明来源，欢迎对文章中的引用来源进行考证，欢迎指出任何有错误或不够清晰的表达。可以在下面评论区评论，也可以邮件至 1944270374@qq.com