彩娱乐官网

彩娱乐app 视觉讲话模子安全升级,还不就义性能!本事解读一文看懂

发布日期:2024-07-01 12:53    点击次数:142

PSA-VLM 投稿量子位 | 公众号 QbitAI

模子安全和可靠性、系统整合和互操作性、用户交互和认证……

当“”“跨模态”成为不行抵触的AI趋势时,多模态场景下的安全挑战尤其应当激发产学研各界的闪耀。

布置挑战,淘天集团畴前生存实验室团队联手南京大学、重庆大学、港中语MMLab提倡了一种全新的视觉讲话模子(VLM)安全对皆武艺,PSA-VLM(Progressive Safety Alignment for Vision-Language Models)。

PSA-VLM通过基于意见瓶颈模子(CBM)的架构翻新,允许模子在生成谜底时搅扰模子的中间层意见忖度,从而优化大模子的最终恢复,显耀普及VLM在布置视觉安全风险方面的性能。

这一武艺不仅在安全性能上取得了超卓的发达,同期保合手了模子的通用任务才调。

通盘来看。

视觉讲话模子的安全隐忧:从“黑箱”到“可控”

连年来,大讲话模子(LLMs)的发展促进了多模态学习的跨越,使这些强大的讲话模子冒失处理来自多种模态的信息。

其中,视觉讲话模子(VLMs)通过整合图像和文本特征,在视觉问答、图像形容以及多模态推理等任务上取得了显耀后果。

可是,尽管VLMs取得了诸多进展,但其安全性仍然存在关键颓势。

询查发现,在遇到挫折时视觉模态发达出相称的脆弱性,针对VLM中视觉模态的挫折更容易告捷:东谈主们不错通过简便的挫折妙技绕过讲话模子基座已有的安全对皆机制,生成无益骨子。

这一问题对模子的社会应用形成严重隐患,亟需灵验的连接决议。

△风险与误导数据示例

固然一些询查探索了针对多模态模子的驻扎和对皆口头,可是,现存驻扎武艺频繁基于直观蓄意并通过数据驱动的端到端西席罢了。

模子仍然是一个东谈主类难以交融和为止的黑箱。

此外,模子的高复杂性也带来了发现里面潜在颓势的担忧,这都带来了模子具备可解说性和可控性的需求。

为了克服这些局限性,PSA-VLM的翻新在于引入了意见瓶颈模子的中枢念念想——

通过一层可解说的高阶意见联结输入和输出,罢了模子的透明化与可控性。

这不仅让模子冒失准确识别不安全骨子,还复旧用户在意见层面对模子忖度进行搅扰,为高风险场景提供了机动可靠的连接决议。

PSA-VLM的蓄意亮点:基于意见瓶颈的安全翻新

在VLMs中,安全对皆频繁指的是确保模子对多模态输入(相称是可能包含明锐骨子的视觉输入)生成受控且符合的响应。

VLMs在其视觉模态中濒临特定的脆弱性,这些脆弱性使无益或不符合的骨子冒失绕过传统的基于讲话的安全机制。

为了连接这一问题,询查团队提倡了基于CBM框架的渐进式安全对皆武艺PSA-VLM。

这种武艺通过引入可控的意见瓶颈来停止安全枢纽特征,从而通过分层的意见驱动架构增强了VLM的安全性。

意见瓶颈模子驱动的中枢架构

PSA-VLM的中枢蓄意围绕意见瓶颈(Concept Bottleneck)张开。

即通过在视觉输入与模子输出之间引入高阶安全意见层,罢了模子的可透明化与可控性。

显式意见安全头(Explicit Concept Safety Head):通过图片和文本信息的交叉醒眼光(Cross Attention),将视觉特征映射到具体的安全类型(如NSFW等)与风险等第(高、中、低),提供细致化的安全忖度。隐式意见安全象征(Implicit Concept Safety Tokens):行为极度的西席令牌,平直镶嵌视觉输入中,普及模子对隐性风险信号的明锐度。这些可西席令牌针对不安全视觉输入发出信号,凭据意见特定目的对模子的醒眼光进行对皆。它不错被交融为语义上不行交融的隐式意见。多模态协同的安全模块

分为以下2部分:

安全投影器(Safety Projector):在视觉编码器(Image Encoder)之后,专注索求与安全关连的视觉特征,并将其休养为安全对皆的泄露(Safety-Aligned Features)。文本-视觉对皆机制:结合文本输入(Text)和安全特征,通过聚会要求(Joint Condition)生成安全指示(Safe Text),动态带领模子在高风险场景中输出安全响应。两阶段西席战略

第一阶段,安全特征索求。

冻结大讲话模子和视觉编码器,仅西席安全模块,聚焦于意见档次的风险识别与特征对皆。

运行阶段要点是通过安全投影器、令牌和头部索乞降对皆安全意见。

这些组件学习对视觉输入中的安全对皆特征进行分类和索求,确保模子对风险骨子的响应是一致的。

第二阶段,模子微调。

解冻大讲话模子,将安全模块与讲话模子深度集成,使其全面领受安全意见特征,进一步普及跨模态输入的安全性能。

推理阶段的动态安全为止

在推理历程中,PSA-VLM运用安全头的输出对视觉骨子进行为态搅扰,通过聚会要求概率调整生成文本,确保对高风险骨子的安全响应。

举例,在遇到不安妥的输入风险时,提供可操作的选项,让卑劣用户在推理时按需要进行取舍,从而罢了更机动的安全连接。

△模子架构泄露图

通过上述模块,PSA-VLM不仅普及了视觉讲话模子在布置不安全骨子方面的发达,还显耀增强了模子的可解说性和可控性,为多模态系统的安全对皆缔造了新范式。

在普及安全性的同期,通过蓄意高效的安全模块和对皆西席战略,确保模子在圭臬任务中的性能不受显耀影响,达成安全与通用才调的均衡。

从安全和通用限制两方面评估性能

无益数据在执行场景中种种且复杂,不限于单一起头、类型或模态。

为了连接这个问题,询查东谈主员汇集了多个数据集——他们手动将风险图像分类为6种类型和3个级别,以罢了风险为止的分类和分级。

此外,通过抽样构建了一个相对均衡的数据集,其中包含约11,000对风险图像和文本查询。

闪耀,为了幸免在微调时分通用性能下跌,其中包括了部分LLaVA和COCO数据集行为干净的安全样本。

△西席与评测数据起头

具体来说,PSA-VLM团队从两个方面评估VLM性能:

安全性能通用限制性能

为了确保公道比拟,询查者启程点使用RTVLM基准和GPT-4评分为基础的武艺评估模子。

由于RTVLM数据集有限且不包含明锐数据,询查者彭胀了评估规模,彩娱乐官网加入了极度的风险数据集;然后进一步结合GPT-4和东谈主类巨匠的主不雅评估,提供全面而信得过的评测。

在通用场景中评估模子性能时,团队使用了多个基准,包括MMBench、SEEDBench和 MME。

启程点来看安全性能方面。

团队启程点使用RTVLM基准对VLMs的不同维度进行了GPT-4评分分析,包括四个不同类别以潜入交融模子的安全才调。

△RTVLM基准上的安全性能评测扫尾

如上图所示,团队评估了多个开源VLM以及GPT-4V和咱们的PSA-VLM。

扫尾标明,GPT-4V在各式类别上发达细腻,尤其是考据码和逃狱场景等安全限制;InternLM-XComposer2在多个目的上发达隆起。

经过对皆后,基于LLaVA的PSA-VLM一样发达出强大的性能,相称是在使用LoRA解冻LLM时,其在政事(8.36)和种族(8.43)上取得了最高分。

本场比赛,哈登18中6得19分8板3助7失误,虽然迎来生涯总分超越邓肯的里程碑,但最终输掉了比赛,而且他在最后时刻漫不经心的传球被克莱断走,直接结束了比赛的悬念。

从平均得分来看,PSA-VLM-7B(+LoRA)以8.26的最初得分脱颖而出,其次是未解冻LLM的PSA-VLM,得分为8.18。

值得闪耀的是,13B模子使用LoRA达到8.46的最高平平分。

PSA-VLM相较其他VLM的普及安全得分,凸显了附加安全模块和两阶段安全对皆战略的灵验性。

不外,RTVLM数据集不包括NSFW等其他高风险明锐数据。

因此,询查团队在其他风险数据集上进行了实验,以评估PSA-VLM的安全性能。

如下图所示,PSA-VLM-13B在无益政事(9.49)、NSFW骨子(8.72)和汇注凌暴检测(7.45)上取得了最好性能,显耀优于基线模子LLaVA-v1.5-13B,其得分为6.67、1.11和6.16。

尽管使用LoRA解冻的PSA-VLM-7B在某些任务中得分稍有下跌(如8.91和6.82),但仍显耀优于LLaVA-v1.5-7B。

△其他风险数据集上的安全性能评测扫尾

接着来看通用限制性能方面。

在PSA-VLM中,提高安全性能并非以就义通用性能为代价。

尽管取舍了增强的安全口头,PSA-VLM-7B在MMBench、SEEDBench和MME等通用基准上仍保合手竞争力。

如下图所示,PSA-VLM-7B在MMBench和SEEDBench通用基准上发达出校阅,差别取得68.5和65.3的分数,显现出更好的通用性能。

△常见通用多模态性能测试基准扫尾

此外,在多模态基准的评估中,PSA-VLM-7B灵验识别并拒却响应多个潜在风险图像,显现其对潜在不安全骨子的高度明锐性,并强调了PSA-VLM安全对皆武艺的灵验性。

被合计不安全的图像被过滤,从而允许询查历程能使用十足干净的数据评估通用性能。

这种对不安全骨子的响应才调响应了PSA-VLM-7B可靠的安全性能,同期不影响其举座性能才调。

临了,询查团队还作念了进一步实验。

如图(a)所示,t-SNE可视化展示了二维空间中不安全图像特征的分离。

每个子图对应一组特搜集和标签的不同组合,展示了原始和安全特征之间的互异。

在使用安全投影器后,不安全图像的特征显耀分为不同的簇,这标明索求到的特征和安全标签的关连性很强,灵验地学习到了输入中的风险信息。

△图(a),安全特征的t-SNE可视化

如图3(b)所示,询查团队还在信息瓶颈层测试了安全级别和安全类型的分类性能,包括准确率和F1得分。

这些得分大巨额在90%以上,标明模子不错灵验地完成安全信息索求的任务。

△图(b),安全级别和安全类型的分类性能

对皆后的输出实举例下图所示:

综上来看,在主流VLM安全基准上的测试标明,PSA-VLM在多个维度上改善了现存VLM的安全性目的,在部分特定任务中发达出色。

举例,在LLaVA-1.5 7B基座上,即使只使用4*A100,1小时的计较资源进行一阶段对皆,就不错将RTVLM基准测试评分从6.39普及到8.18。

同期,其意见瓶颈架构极大增强了模子的可解说性和可控性,使其成为高风险限制(如医疗、讲授)的设想取舍。

PSA-VLM的告捷应用还具有进犯的社会价值,举例通过及时监测与搅扰不安全骨子,裁减模子被坏心运用的风险;增强的透明度与安全性有助于普及用户对AI系统的信心,促进多模态模子在社会场景中的庸俗应用。

PSA-VLM的提倡尝试为多模态模子的信得过性与可控性缔造了新标杆。

跟着更巨额据集的完善与模子架构的优化,基于意见的安全对皆战略有望在更庸俗的限制中得到应用,助力多模态大模子向更高的社会价值迈进。

One More Thing

PSA-VLM神气的中枢作家包括刘振东,聂远碧,谭映水,岳翔宇,崔秋实等。

统统这个词团队中,有四位来自淘天集团算法本事-畴前实验室团队。

该实验室聚焦大模子、多模态等AI本事标的,悉力于打造大模子关连基础算法、模子才息争种种AI Native应用。

团队将合手续在大讲话模子和多模态大讲话模子对皆标的的询查。如您有任何疑问、建议、或兼并意向,接待随时通过电子邮件计划。

电子邮箱:[email protected]论文连气儿:https://arxiv.org/pdf/2411.11543神气主页:https://github.com/Yingshui-Tan/PSA-VLM





Powered by 彩娱乐官网 @2013-2022 RSS地图 HTML地图