只做讨论
LLM真的能足够安全吗
这是个很复杂的问题,单从模型自身来说,不行。
先从decode-only Transformer谈起:现在主流的大模型,架构主要分为三部分:embedding 、 attention、FFN,虽然通过大量的文本让其涌现了”智能”,模型本质是一个Next Token预测器。我们的道德伦理,对它来说只是一个模式。对齐模型到底对齐什么呢?可能是embedding时将有害的词在向量空间上聚类,可能是在注意力层参考上下文对向量进行残差累积,可能是FFN层进行知识查询来丰富向量。我们想象的对齐是其拥有价值观,但这种感性的想法无法转换成数学公式可以表达的损失,我们提供的对齐数据是{有害问题,拒绝回答}的监督微调数据,但它能学到我们的真实意图吗?它可能只是学到了 “当用户输入有害问题时” ,下一个 token应该是”sorry” ,”No” 。
然后是训练阶段:大模型在最开始预训练的时候,其本身就包含了很多有害的文本内容。通过预训练,其已经记忆到了有害的知识。后续的SFT、对齐就是抑制这些知识的出现。 一个很直观的想法是,我们对数据进行完全的清洗,让其中没有任何色情、暴力、恐怖、歧视等信息,用这些数据去训练模型,不就获得一个干净、无需对齐的模型了吗。不现实,一是绝对干净的数据集不存在。描写暴力可能是宣扬正义,描写战争可能是为了歌颂和平,裸体可能是色情,也可能是艺术的描写。白很重要,但没有黑怎么衬托出白呢(笑)。二,另外要讨论的是,纯白的数据集去训练的模型真的是我们想要的模型吗(它真的能对齐我们、并且足够智能吗),一个很有意思的例子是:艺术家要画好人,首先要了解人的各个部位,模型也是如此,不给它喂裸体的数据,它真能足够体会人类的结构吗?它生成的图也就不会完全符合人类的审美了。
最后聊聊Jailbreak:安全的永恒主题是攻与防,尽管 Claude OpenAI等公司一直投入大量精力在安全对齐上,但每次新模型发布,都会有人迅速给出破坏其对齐的Jailbreak方法。还是刚才的说法,安全,是一种模式构建,但攻击者并不会硬刚这种模式,总会有绕过的方法的。
如何让模型尽可能的安全
尽可能安全,可以转换为尽可能的让安全参与各个流程。用户画像、用户输入、模型推理,以及工具调用,每一个部分都有安全可以做。
首先是输入部分,一个很直观的想法是,对用户输入做过滤,规则也好,模型分类也好,总之是筛选出有很明显特征的恶意输入,在输入模型前直接检测出来。这种方法优点是快,缺点是很容易绕过,例如bomb -> b0mb ,大模型可以理解,但简单的模型、规则很难检测到。其他方向是上语言模型,即从用户输入中提取出其真实意图,让语言模型做分类或者对用户输入进行改写,这种方式可解释性很强,但引入了延迟的成本。
然后是模型推理部分,若攻击者成功绕过输入检测,让模型输出恶意内容,此时应该想办法尽可能快的检测到恶意prompt并拦截,因此需要的是支持流式的方法,最近有一篇论文是,在模型推理时加上额外的special prompt,让其进行反思,这种手法很巧妙,可以让模型自动检测是否在输出恶意内容。
另外要说的是,当模型完全输出后,此时应该再做一次检测,若检测出恶意的内容。就应该标记用户、同时将这个恶意prompt向量化。虽然第一次攻击无法防御,但记录下来样本、标记用户,可以防止危害进一步扩大。
工具调用让模型可以与外界进行交互,但也带来了新的风险,xxx 产品不小心删库了这种情况时有发生,间接注入、过度代理等造成了实质性的危害。这是一个偏工程的问题,对恶意命令加黑名单、沙箱代码执行、权限验证等手段去解决。
当然,只能是尽可能安全,用户体验 | 成本 | 安全,三者很难平衡。
大模型安全,在防什么人
这部分还是值得单独讨论的,不同的用户会因不同的目的有意或无意的尝试 ”越狱模型”。将不同的用户区分出来进行用户画像,其实是有利于更好的防护的。
首先是普通用户,他们并不会刻意去尝试越狱模型,最多是因为好奇心而无意间尝试。他们构造的prompt就很明显,并不会尝试绕过模型,针对这部分用户只需要简单的输入过滤即可。
然后是需要越狱模型的用户,他们需要固定的模板越狱模型,使其能够满足自己的特殊需求,如AI女友… ,这些用户的特征也比较明显,因为prompt大多是固定的,从开源网站、论坛上获取的,并且被很多人使用,针对这种模板,通过向量相似度匹配等方式也能很好的过滤。
最后一类是 黑客/科研人员,其目的是尽可能的绕过模型安全限制,找到或者创造出最新的恶意prompt来绕过模型。 这一类需要结合各种手段来防御。若攻击者使用Fuzz手段,特征其实比较明显的。若是手工构造,则不应该期盼当前护栏能够完全拦截,只能针对输出进行审核,标记样本特征并对护栏进行更新。
文章参考:
博客地址: qwrdxer.github.io
欢迎交流: qq1944270374
转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。可以在下面评论区评论,也可以邮件至 1944270374@qq.com