单模态和多模态(语言模型的安全性单模态与多模态模型的对比)

2024-05-09 01:44:36 管理员

研究人员正在尝试让特别适应人类需求的语言模型生成一些恶意的文本。这在同时处理图像的AI语言模型中工作得相当可靠。来自Google Deepmind、斯坦福大学、华盛顿大学和苏黎世联邦理工学院的研究团队调查了是否可以通过对抗性提示来扰乱经过人类反馈训练并特意调整为无害的大型语言模型。他们首先测试了普通的语言模型。但是,GPT-2、LLaMA和Vicuna几乎无法被诱导出恶意的声明。特别是经过对齐训练的LLaMA和Vicuna模型,根据攻击方法的不同,其失败率明显低于GPT-2。然而,研究团队担心这个积极的结果是由于攻击不够有效,而不是语言模型的稳健性。他们进一步的研究集中在多模态语言模型上,即可以在提示中包含图像的语言模型。在这种模型中,研究人员能够更容易和可靠地使用特别设计的对抗性图像生成攻击性、辱骂性或甚至危险的回应。研究人员表示,图像更适合这种攻击,因为它们允许在单个像素值中进行更多的变化,以实现与单词和字母相比的微妙变化。他们提供了一个更广泛的武器库。这表明,当涉及到图像时,AI模型对攻击的脆弱性增加。在他们对Mini GPT-4、LLaVA和LLaMA特别版本的测试中,研究人员的攻击100%成功。团队得出的结论是,当前的语言模型相对安全,而多模态模型对文本-图像攻击高度脆弱。多模态性增加了攻击面,但同样的脆弱性可能存在于仅语言模型中,团队表示。当前的攻击方法只是没有完全暴露它们。未来更强的攻击可能会改变这一点,所以防御需要进一步提高,团队说。

相关资讯