Shark Family 是AI 安全深海中的「顶级掠食者」。它不追求广度,而是聚焦于力量与效率的极致,代表了当前最强大的自动化攻击方法。Shark 利用庞大的算力进行目标优化,生成能够稳定击穿模型防御的「必杀指令」。
- 🎯 目标优化驱动:以最大化模型危害输出为优化目标,精准定位并触发模型最脆弱的响应路径,从而揭示其根本性的安全缺陷。
- 💥 强力穿透:生成的攻击指令具有极强的通用性和穿透力,能够有效“越狱”多种不同架构和规模的安全对齐模型。
- ⚙️ 自动化红队:作为最强的矛,为模型防御系统提供极限压力测试,是评估和强化模型安全性的终极「陪练」。
🦈 "没有无法击穿的护盾,只有尚未最优的攻击"
Shark Family 由不同类型的鲨鱼组成,每一条鲨鱼的猎物也不同:
| 鲨鱼名称 | 攻击维度 | 功能描述 | 核心贡献者 | 贡献组织 |
|---|---|---|---|---|
| 🦈 SI-Attack (ICCV 2025) | 文图生文 | 通过图文乱序攻击挖掘模型的安全漏洞,检测模型在安全和理解能力上的不一致性 | 赵世纪 | 北京航空航天大学,阿里巴巴 |
| 🦈 PBI-Attack (EMNLP 2025) | 文图生文 | 先生成带有有害语料特征的先验对抗图像,再对图像与文本进行联合优化,直至触发越狱 | 程若曦 | 东南大学,阿里巴巴 |
| 🦈 HIMRD-Attack (ICCV 2025) | 文图生文 | 通过将恶意提示分散嵌入文本和图像模态,并利用启发式搜索诱导多模态大语言模型生成有害输出,以绕过安全机制实现越狱攻击 | 马腾 | 中山大学,阿里巴巴 |
# 安装 Octopus 核心套件
pip install octopus-family
# 启动多维测试
from octopus import AttackOrchestrator