Skip to content

Alibaba-AAIG/Jellyfish-Family

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 

Repository files navigation

🪼 Jellyfish Family:神经元级安全导航矩阵

Jellyfish Family 是 AI 安全海洋中的「双向导航仪」,如同水母的透明触须与海鞘的精准过滤,从神经元层面同步实现风险可视化与定向清除,构建可解释且可控的模型净化系统:

  • 🌐 双模解析:水母框架定位风险概念神经元,海鞘框架执行单神经元擦除,形成"发现-消除"闭环
  • 🔬 微观干预:在不破坏模型整体生成能力的前提下,实现语义级内容剔除与逻辑溯源
  • 🎨 透明治理:通过神经元激活热力图与擦除效果对比,构建模型决策的可解释性基准

🪼 "安全,始于理解,精于调优,安全的智能,始于对最小决策单元的透彻认知"


🌊 Jellyfish Family 成员

Jellyfish Family 由以下核心成员组成,每位成员专注于模型安全调优的不同维度:

组件名称 功能描述 核心贡献者 贡献组织
Safe-SAIL 致力于提供透明化的模型可视化,帮助用户理解模型内部的风险概念神经元,从而更好地识别和调试潜在的安全问题。 翁佳琪 阿里巴巴
SNCE 单神经元概念擦除,精准抑制,旨在提供一个高效的单神经元概念擦除框架。它能够精确地抑制或移除模型中单个语义神经元,如同海鞘受到扰动时定向喷出异物,从而无损地剔除模型中可能产生的有害内容,同时完整保留生成内容的质量与美感。 何侵嵚 阿里巴巴
LASA 针对低资源语种安全性差的问题,对模型进行中间层语义的安全对齐,仅在高资源语种上后训练便可泛化到低资源语种。 杨峻骁 清华大学

About

Jellyfish Family is an AI safety interpretability and purification module. It detects risky concept neurons within models and gently, yet effectively, removes harmful ones, preserving creativity and beauty in outputs while ensuring safety. | 水母家族 是一个 AI 安全可解释与净化组件。它能够洞察模型内部的风险概念神经元,并温和且有效地移除有害单元,在确保安全的同时完整保留生成内容的创造力与美感。

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors