Jellyfish Family 是 AI 安全海洋中的「双向导航仪」,如同水母的透明触须与海鞘的精准过滤,从神经元层面同步实现风险可视化与定向清除,构建可解释且可控的模型净化系统:
- 🌐 双模解析:水母框架定位风险概念神经元,海鞘框架执行单神经元擦除,形成"发现-消除"闭环
- 🔬 微观干预:在不破坏模型整体生成能力的前提下,实现语义级内容剔除与逻辑溯源
- 🎨 透明治理:通过神经元激活热力图与擦除效果对比,构建模型决策的可解释性基准
🪼 "安全,始于理解,精于调优,安全的智能,始于对最小决策单元的透彻认知"
Jellyfish Family 由以下核心成员组成,每位成员专注于模型安全调优的不同维度:
| 组件名称 | 功能描述 | 核心贡献者 | 贡献组织 |
|---|---|---|---|
| Safe-SAIL | 致力于提供透明化的模型可视化,帮助用户理解模型内部的风险概念神经元,从而更好地识别和调试潜在的安全问题。 | 翁佳琪 | 阿里巴巴 |
| SNCE | 单神经元概念擦除,精准抑制,旨在提供一个高效的单神经元概念擦除框架。它能够精确地抑制或移除模型中单个语义神经元,如同海鞘受到扰动时定向喷出异物,从而无损地剔除模型中可能产生的有害内容,同时完整保留生成内容的质量与美感。 | 何侵嵚 | 阿里巴巴 |
| LASA | 针对低资源语种安全性差的问题,对模型进行中间层语义的安全对齐,仅在高资源语种上后训练便可泛化到低资源语种。 | 杨峻骁 | 清华大学 |