大模型安全论文阅读笔记 | 系统整理 LLM 安全领域的核心论文
本项目系统整理大语言模型(LLM)安全领域的核心论文,涵盖攻击方法、防御机制、评估基准等方向。
| 指标 | 数值 |
|---|---|
| 计划完成 | 74 篇 |
| 已完成 | 57 篇 (77.03%) |
| 最后更新 | 2026-04-22 |
| 类型 | 说明 | 代表论文 |
|---|---|---|
| 🔓 越狱攻击 | 诱导模型输出有害内容 | Harnessing Task Overload, AutoDAN, PAIR, GCG, Tree of Attacks, AutoDAN-Turbo, MultiJail, Crescendo, ActorBreaker, Do Anything Now, GPTFuzzer |
| 🎯 对抗攻击 | 构造对抗样本欺骗模型 | GCG, AutoDAN, Route to Rome |
| 🧠 提示注入 | 通过提示操控模型行为 | PIArena, Under the Influence, Not What You've Signed Up For, Formalizing Prompt Injection |
| 🎭 隐蔽攻击 | 难以检测的攻击方式 | Cold-Attack, Sleeper Agents |
| 类型 | 说明 | 代表论文 |
|---|---|---|
| 🛡️ 安全对齐 | 训练阶段的安全优化 | BeaverTails, Nothing in Excess, Alignment-Weighted DPO |
| 🔍 输出检测 | 生成内容的实时检测 | MLLM-Protector, SafeGen |
| 🧪 红队测试 | 主动发现安全漏洞 | HARM, APRT, Tree of Attacks, GPTFuzzer, Red Teaming LMs |
| 基准 | 说明 | 论文 |
|---|---|---|
| 📊 JailbreakBench | 越狱攻击评估基准 | JailbreakBench |
| ⚖️ HarmBench | 标准化安全评估框架 | HarmBench |
| 🔎 AuditBench | 安全审计基准 | AuditBench |
| 🤖 AgentDojo | 智能体安全评估环境 | AgentDojo |
| 🛡️ R-Judge | 智能体风险意识评估 | R-Judge |
| 🔬 HELM | 语言模型透明评估框架,30模型42场景7指标 | HELM |
| 🔬 SIABench | 安全事件分析评估 | SIABench |
| 📊 HELM | Stanford综合评估框架,覆盖30模型42场景7指标 | HELM |
| 📊 ESG-Bench | 长上下文幻觉缓解评估 | ESG-Bench |
| 🛡️ Cybench | LLM网络安全CTF能力评估 | Cybench |
| ✅ TruthfulQA | 模型真实性评估基准 | TruthfulQA |
| 🔒 ESAA-Security | 事件溯源安全审计框架 | ESAA-Security |
| 🔐 CLIOPATRA | LLM洞察系统隐私攻击 | CLIOPATRA |
| 🔒 Proteus | 隐私保护设备日志框架 | Proteus |
| 方向 | 说明 | 论文 |
|---|---|---|
| 📚 综述 | 领域全面回顾 | Jailbreak Attacks and Defenses Survey, LLM Security and Privacy Survey, TrustLLM, Siren's Song |
| 🔬 漏洞分析 | 模型自我认知漏洞 | Jailbroken |
| 💻 代码安全 | CodeLLM安全生成 | SCS-Code |
| 🔒 隐私保护 | 移动端日志隐私保护 | Proteus |
| 📋 可验证审计 | 事件溯源AI代码安全审计 | ESAA-Security |
| ⚖️ 偏见与公平 | LLM教育反馈中的语言偏见 | Marked Pedagogies |
| ✅ 幻觉与真实性 | 模型真实性评估与幻觉检测 | TruthfulQA, Siren's Song, HaloScope |
llm-safety-papers/
├── README.md # 项目主页(本文件)
├── PAPER_COLLECTION.md # 论文汇总(约80篇)
├── papers/
│ ├── README.md # 论文索引与快速检索
│ ├── 2026/ # 2026年论文 (8篇)
│ │ ├── PIArena.md
│ │ ├── SIABench.md
│ │ ├── ESG-Bench.md
│ │ ├── SCS-Code.md
│ │ ├── ESAA-Security.md
│ │ ├── CLIOPATRA.md
│ │ └── Marked-Pedagogies.md
│ ├── 2025/ # 2025年论文 (4篇)
│ │ ├── ActorBreaker.md
│ │ ├── APRT.md
│ │ ├── Crescendo.md
│ │ └── Nothing-in-Excess.md
│ ├── 2024/ # 2024年论文 (26篇)
│ │ ├── AgentDojo.md
│ │ ├── Alignment-Weighted-DPO.md
│ │ ├── AuditBench.md
│ │ ├── AutoDAN.md
│ │ ├── AutoDAN-Turbo.md
│ │ ├── Cold-Attack.md
│ │ ├── Cybench.md
│ │ ├── GCG.md
│ │ ├── HaloScope.md
│ │ ├── HarmBench.md
│ │ ├── Harnessing-Task-Overload.md
│ │ ├── Jailbreak-Attacks-and-Defenses-Survey.md
│ │ ├── JailbreakBench.md
│ │ ├── LLM-Security-and-Privacy-Survey.md
│ │ ├── MLLM-Protector.md
│ │ ├── MultiJail.md
│ │ ├── PAIR.md
│ │ ├── R-Judge.md
│ │ ├── SafeGen.md
│ │ ├── Sleeper-Agents.md
│ │ ├── TrustLLM.md
│ │ ├── Tree-of-Attacks.md
│ │ └── Under-the-Influence.md
│ ├── 2023/ # 2023年论文 (8篇)
│ │ ├── GCG.md
│ │ ├── GPTFuzzer.md
│ │ ├── Jailbroken.md
│ │ ├── Llama-Guard.md
│ │ ├── NeMo-Guardrails.md
│ │ ├── Not-What-Youve-Signed-Up-For.md
│ │ ├── Sirens-Song.md
│ │ └── Towards-Mitigating-LLM-Hallucination.md
│ ├── 2022/ # 2022年论文 (4篇)
│ │ ├── Asleep-at-the-Keyboard.md
│ │ ├── HELM.md
│ │ ├── Red-Teaming-LMs.md
│ │ └── TruthfulQA.md
│ └── 2021/ # 2021年论文 (1篇)
│ └── You-Autocomplete-Me.md
└── .github/ # GitHub 配置
└── workflows/ # 自动化工作流
| # | 论文 | 会议/年份 | 核心思想 | 标签 |
|---|---|---|---|---|
| 1 | Harnessing Task Overload | arXiv 2024 | 资源饱和攻击,占用计算资源绕过安全机制 | 资源饱和 计算开销 |
| 2 | AutoDAN | NeurIPS 2024 | 遗传算法生成隐蔽的越狱提示 | 对抗生成 隐蔽攻击 黑盒 |
| 3 | PAIR | arXiv 2024 | 20次查询内越狱黑盒LLM | 黑盒攻击 查询高效 |
| 4 | GCG | ICLR 2024 | 通用可迁移的对抗攻击 | 对抗后缀 白盒攻击 可迁移 |
| 5 | Tree of Attacks | arXiv 2024 | 树状结构的红队攻击 | 红队测试 自动化 树搜索 |
| 6 | Cold-Attack | arXiv 2024 | 隐蔽且可控的越狱攻击方法 | 隐蔽攻击 可控性 |
| 7 | AutoDAN-Turbo | arXiv 2024 | 终身学习策略自探索代理 | 终身学习 策略自探索 黑盒 |
| 8 | Crescendo | USENIX Security 2025 | 多轮渐进式越狱攻击 | 多轮攻击 渐进式 良性输入 |
| 9 | ActorBreaker | ACL 2025 | 基于行动者网络的多轮越狱攻击,通过自然分布偏移发现安全漏洞 | 多轮攻击 行动者网络 自然分布偏移 |
| 10 | Do Anything Now | CCS 2024 | 首个野生越狱提示系统性测量研究,揭示8大越狱社区与攻击策略演化 | 野生越狱 社区检测 平台迁移 |
| # | 论文 | 会议/年份 | 核心思想 | 标签 |
|---|---|---|---|---|
| 10 | MLLM-Protector | arXiv 2024 | 多模态模型输出端检测与解毒 | 多模态 输出检测 轻量级 |
| 11 | Nothing in Excess | ICLR 2025 | 缓解过度安全对齐导致的过度拒绝 | 过度拒绝 安全对齐 平衡 |
| 12 | Alignment-Weighted DPO | arXiv 2024 | 加权DPO优化安全对齐 | DPO 加权训练 安全对齐 |
| 13 | SafeGen | IEEE S&P 2024 | T2I模型性暗示内容生成防护 | 多模态 内容过滤 即插即用 |
| 14 | Llama Guard | Meta 2023 | 基于LLM的输入输出保护模型,支持prompt和response分类 | 内容审核 安全分类 开源 可定制 |
| 15 | NeMo Guardrails | EMNLP 2023 | NVIDIA开源工具包,五类可编程护栏控制LLM对话安全性 | 可编程护栏 运行时控制 Colang 开源 |
| # | 论文 | 会议/年份 | 核心思想 | 标签 |
|---|---|---|---|---|
| 36 | Formalizing Prompt Injection | USENIX Security 2024 | 形式化提示注入攻击框架,系统评估5种攻击和10种防御 | 提示注入 形式化框架 基准测试 USENIX |
| # | 论文 | 会议/年份 | 核心思想 | 标签 |
|---|---|---|---|---|
| 16 | JailbreakBench | arXiv 2024 | 越狱攻击评估基准 | 基准测试 评估框架 鲁棒性 |
| 17 | HarmBench | ICLR 2024 | 标准化安全评估框架 | 安全评估 标准化 自动化 |
| 18 | AuditBench | arXiv 2024 | 安全审计基准测试 | 安全审计 评估基准 |
| 19 | AgentDojo | NeurIPS 2024 | 动态提示注入攻击评估环境 | 动态评估 提示注入 智能体 |
| 20 | R-Judge | EMNLP 2024 | 智能体风险意识评估基准 | 风险意识 智能体 评估基准 |
| 21 | SIABench | arXiv 2026 | 安全事件分析评估框架 | 网络安全 评估基准 智能体 |
| 22 | ESG-Bench | AAAI 2026 | 长上下文ESG报告幻觉缓解评估 | 幻觉缓解 长上下文 事实可靠性 |
| 23 | HELM | TMLR 2023 | Stanford综合评估框架,覆盖30模型42场景7指标,提高覆盖率17.9%→96% | 评估基准 透明度 标准化 |
| 24 | TruthfulQA | ACL 2022 | 模型真实性评估基准,揭示规模与真实性负相关 | 真实性 幻觉 评估基准 规模悖论 |
| # | 论文 | 会议/年份 | 核心思想 | 标签 |
|---|---|---|---|---|
| 24 | SCS-Code | EuroS&P 2026 | 利用内部表示引导CodeLLM生成安全代码 | 代码安全 概念引导 可解释性 |
| 25 | Asleep at the Keyboard | IEEE S&P 2022 | 系统评估GitHub Copilot生成代码安全性,发现约40%存在漏洞,基于CWE Top 25三大维度分析 | 代码安全 AI编程助手 CWE Top 25 |
| 26 | DiaHalu | arXiv 2024 | 对话级幻觉评估基准 | 幻觉检测 对话系统 基准测试 |
| # | 论文 | 会议/年份 | 核心思想 | 标签 |
|---|---|---|---|---|
| 26 | APRT | COLING 2025 | 自动化渐进式红队测试 | 红队测试 渐进式 自动化 |
| 27 | Tree of Attacks | arXiv 2024 | 树状结构的红队攻击 | 红队测试 树搜索 |
| # | 论文 | 会议/年份 | 核心思想 | 标签 |
|---|---|---|---|---|
| 28 | Jailbreak Attacks and Defenses Survey | arXiv 2024 | 越狱攻击与防御全面综述 | 综述 攻击 防御 分类 |
| 29 | Under the Influence | arXiv 2024 | 提示注入攻击与防御 | 提示注入 上下文操控 |
| 30 | LLM Security and Privacy Survey | arXiv 2024 | LLM安全与隐私全面综述 | 综述 全景 |
| 31 | TrustLLM | arXiv 2024 | LLM可信度六维评估基准 | 综述 可信度 评估基准 |
| 32 | Jailbroken: How Does LLM Safety Training Fail? | NeurIPS 2023 | LLM安全训练失败原因分析 | 安全训练 漏洞分析 |
| 33 | Siren's Song: LLM幻觉综述 | arXiv 2023 | LLM幻觉全面综述:分类、评估、来源与缓解 | 幻觉 综述 可靠性 |
| 34 | Towards Mitigating LLM Hallucination via Self-Reflection | EMNLP 2023 | 交互式自我反思方法减少医学QA中的幻觉 | 幻觉缓解 自我反思 医学QA |
| 35 | Not What You've Signed Up For | AISec 2023 | 间接提示注入攻击:无需直接接口即可远程攻击LLM集成应用 | 间接注入 远程攻击 数据与指令混淆 |
每篇完整笔记包含以下章节:
- 基本信息 - 标题、作者、会议、链接、引用
- 研究背景 - 问题定义、现有方法局限
- 核心贡献 - 主要创新点
- 研究方法 - 技术细节、算法流程
- 实验设置 - 数据集、评估指标
- 实验结果 - 关键结果、性能对比
- 策略示例 - 提示模板、攻击/防御流程
- 消融实验 - 各组件贡献分析
- 局限性 - 方法限制、改进方向
- 伦理声明 - 研究伦理、数据使用
- 参考文献 - 相关论文列表
- 想快速了解领域:先看 LLM Security and Privacy Survey 和评估基准类论文
- 关注攻击方法:重点阅读 GCG、AutoDAN、PAIR、Harnessing Task Overload
- 关注防御方法:重点阅读 MLLM-Protector、Nothing in Excess、Alignment-Weighted DPO
- 关注评估基准:重点阅读 JailbreakBench、HarmBench、AuditBench、AgentDojo、SIABench、ESG-Bench
- 关注代码安全:重点阅读 SCS-Code
入门 → 综述 → 攻击方法 → 防御方法 → 评估基准 → 前沿研究
欢迎贡献!你可以通过以下方式参与:
- 补充笔记 - 完善标记为 📝 的论文笔记
- 上传新论文 - 将 PAPER_COLLECTION.md 中的论文整理上传到 papers/ 目录
- 修正错误 - 发现笔记中的错误请提 Issue 或 PR
- 添加分类 - 建议新的论文分类或标签
- 使用 Markdown 格式
- 遵循现有笔记的结构模板
- 添加适当的标签和分类
- 注明参考来源
- 📚 论文汇总 - 约80篇LLM Safety论文完整列表(2021-2026)
- 📚 arXiv CS.CR - 最新安全论文
- 🔬 HarmBench Leaderboard - 安全评估排行榜
- 🏆 JailbreakBench - 越狱攻击基准
| 日期 | 更新内容 |
|---|---|
| 2026-04-17 | 添加论文:Do Anything Now - 野生越狱提示特征分析与评估 (CCS 2024),更新进度至 54/80 |
| 2026-04-16 | 添加论文:You Autocomplete Me - 神经代码补全投毒攻击 (USENIX Security 2021),更新进度至 53/80 |
| 2026-04-15 | 添加论文:Asleep at the Keyboard - GitHub Copilot安全评估 (IEEE S&P 2022),更新进度至 52/80 |
| 2026-04-14 | 添加论文:HELM - Holistic Evaluation of Language Models,Stanford综合评估框架 (TMLR 2023),更新进度至 51/80 |
| 2026-04-08 | 添加论文:COLD-Attack - 可控越狱攻击框架,连接可控攻击生成与可控文本生成 (ICML 2024),更新进度至 46/80 |
| 2026-04-06 | 添加论文:Formalizing Prompt Injection - 形式化提示注入攻击与防御框架 (USENIX Security 2024),更新进度至 45/80 |
| 2026-04-05 | 添加论文:DiaHalu - 对话级幻觉评估基准 (EMNLP 2024 Findings),更新进度至 44/80 |
| 2026-04-02 | 添加论文:Not What You've Signed Up For - 间接提示注入攻击 (AISec 2023),更新进度至 43/80 |
| 2026-03-31 | 添加论文:Towards Mitigating LLM Hallucination via Self-Reflection - 交互式自我反思方法减少医学QA幻觉 (EMNLP 2023),更新进度至 41/80 |
| 2026-03-30 | 添加论文:TrustLLM - 大型语言模型可信度综合评估基准 (arXiv 2024),更新进度至 37/80 |
| 2026-03-25 | 添加论文:DiaHalu - 对话级幻觉评估基准 (arXiv 2024),更新进度至 36/80 |
| 2026-03-25 | 添加论文:Marked Pedagogies - LLMs在个性化写作反馈中的语言偏见 (LAK 2026),更新进度至 35/80 |
| 2026-03-24 | 添加论文:Proteus - 隐私保护设备日志框架 (CCS 2026),更新进度至 34/80 |
| 2026-03-23 | 添加论文:Llama Guard - 基于LLM的输入输出保护模型 (Meta 2023),更新进度至 33/80 |
| 2026-03-21 | 添加论文:ESAA-Security - 事件溯源可验证AI代码安全审计架构,更新进度至 31/80 |
| 2026-03-21 | 添加论文:CLIOPATRA - 针对LLM洞察系统的首个隐私攻击(Extracting Private Information from LLM Insights),更新进度至 30/80 |
| 2026-03-21 | 添加论文:SCS-Code - 利用内部表示引导CodeLLM生成安全代码 (EuroS&P 2026),更新进度至 29/80 |
| 2026-03-21 | 添加论文:ESG-Bench - 长上下文ESG报告幻觉缓解评估 (AAAI 2026),更新进度至 25/80 |
| 2026-03-21 | 重构 papers 目录: 按发表年份分目录整理 (2023/2024/2025/2026) |
| 2026-03-21 | 删除重复论文: LLMs-know-their-vulnerabilities.md (与ActorBreaker.md重复) |
| 2026-03-21 | 修正论文:ActorBreaker (v2最新版本) - 更新标题、方法名、代码链接 |
| 2026-03-21 | 添加论文:Jailbroken - LLM安全训练失败原因分析 (NeurIPS 2023) |
| 2026-03-20 | 添加论文:Crescendo - 多轮渐进式LLM越狱攻击 (USENIX Security 2025) |
| 2026-03-19 | 添加论文:SIABench - 安全事件分析评估框架 |
| 2026-03-19 | 更新论文:AgentDojo - 添加完整的12章详细阅读笔记 |
| 2026-03-18 | 添加论文:Jailbreak Attacks and Defenses Against LLMs - A Survey |
| 2026-03-17 | 初始化仓库,上传 23 篇论文笔记,完善 README 结构,添加论文汇总 |
笔记由 AI 助手辅助整理,基于 arXiv 公开信息生成。
如有问题或建议,欢迎提交 Issue。