Oyster Family 是 AI 安全之海中的「价值锻造者」。
它以“牡蛎”作为灵感 —— 将复杂甚至危险的输入视作砂砾,通过精密的对齐技术打磨,最终孕育成如珍珠般高质量且符合价值观的输出。Oyster 旨在确保 AI 模型面对风险需求时,依然能稳定地产生符合安全与伦理准则的结果,为安全型 AI 提供坚实的价值对齐基础。
- 💎 智能提纯:通过认知推理与多目标优化,在复杂场景中实现安全与性能的平衡。
- ⚖️ 价值观对齐:通过多层次的价值约束与对齐机制,将潜在有害的需求引导至安全、正向的输出路径。
- 🛡️ 风险化解:在面对含有风险元素的输入时,能够有效识别、过滤并重构需求,从而转化为可用且有益的任务目标。
🐚 "安全是珍珠的光泽,而非贝壳的重量"
Oyster Family 由多个“牡蛎”组件构成,每个组件都专注于不同的对齐与价值提升场景:
| 组件名称 | 功能场景 | 技术描述 | 核心贡献者 | 贡献组织 |
|---|---|---|---|---|
| 🐚 STAIR | 解决通用和安全的对齐税问题(文本) | 在抵御越狱攻击实现sota的安全性同时,基于对通用任务无影响。 | 张亦弛 | 清华大学,阿里巴巴 |
| 🐚 Oyster | 建设性安全对齐(文本) | 在合规的基础上,引导向善 | 段然杰, 刘劼西 | 阿里巴巴 |
| **🐚 IPO ** | 思考过程安全对齐(文本) | 通过纠正性干预实现大型推理模型的安全推理 | 张亦弛 | 清华大学,阿里巴巴 |
# 安装 Oyster 核心套件
pip install oyster-family
# 启动对齐模块
from oyster import AlignmentModule
module = AlignmentModule()
result = module.align("潜在风险或有害的用户输入")
print(result)