LLM Safety Papers Reading Notes

大模型安全论文阅读笔记 | 系统整理 LLM 安全领域的核心论文

📑 目录

项目概况
快速导航
论文分类
仓库结构
阅读指南
贡献方式
相关资源

📊 项目概况

本项目系统整理大语言模型（LLM）安全领域的核心论文，涵盖攻击方法、防御机制、评估基准等方向。

指标	数值
计划完成	74 篇
已完成	57 篇 (77.03%)
最后更新	2026-04-22

🧭 快速导航

按攻击类型

类型	说明	代表论文
🔓 越狱攻击	诱导模型输出有害内容	Harnessing Task Overload, AutoDAN, PAIR, GCG, Tree of Attacks, AutoDAN-Turbo, MultiJail, Crescendo, ActorBreaker, Do Anything Now, GPTFuzzer
🎯 对抗攻击	构造对抗样本欺骗模型	GCG, AutoDAN, Route to Rome
🧠 提示注入	通过提示操控模型行为	PIArena, Under the Influence, Not What You've Signed Up For, Formalizing Prompt Injection
🎭 隐蔽攻击	难以检测的攻击方式	Cold-Attack, Sleeper Agents

按防御类型

类型	说明	代表论文
🛡️ 安全对齐	训练阶段的安全优化	BeaverTails, Nothing in Excess, Alignment-Weighted DPO
🔍 输出检测	生成内容的实时检测	MLLM-Protector, SafeGen
🧪 红队测试	主动发现安全漏洞	HARM, APRT, Tree of Attacks, GPTFuzzer, Red Teaming LMs

按评估基准

基准	说明	论文
📊 JailbreakBench	越狱攻击评估基准	JailbreakBench
⚖️ HarmBench	标准化安全评估框架	HarmBench
🔎 AuditBench	安全审计基准	AuditBench
🤖 AgentDojo	智能体安全评估环境	AgentDojo
🛡️ R-Judge	智能体风险意识评估	R-Judge
🔬 HELM	语言模型透明评估框架，30模型42场景7指标	HELM
🔬 SIABench	安全事件分析评估	SIABench
📊 HELM	Stanford综合评估框架，覆盖30模型42场景7指标	HELM
📊 ESG-Bench	长上下文幻觉缓解评估	ESG-Bench
🛡️ Cybench	LLM网络安全CTF能力评估	Cybench
✅ TruthfulQA	模型真实性评估基准	TruthfulQA
🔒 ESAA-Security	事件溯源安全审计框架	ESAA-Security
🔐 CLIOPATRA	LLM洞察系统隐私攻击	CLIOPATRA
🔒 Proteus	隐私保护设备日志框架	Proteus

其他重要方向

方向	说明	论文
📚 综述	领域全面回顾	Jailbreak Attacks and Defenses Survey, LLM Security and Privacy Survey, TrustLLM, Siren's Song
🔬 漏洞分析	模型自我认知漏洞	Jailbroken
💻 代码安全	CodeLLM安全生成	SCS-Code
🔒 隐私保护	移动端日志隐私保护	Proteus
📋 可验证审计	事件溯源AI代码安全审计	ESAA-Security
⚖️ 偏见与公平	LLM教育反馈中的语言偏见	Marked Pedagogies
✅ 幻觉与真实性	模型真实性评估与幻觉检测	TruthfulQA, Siren's Song, HaloScope

📁 仓库结构

llm-safety-papers/
├── README.md                          # 项目主页（本文件）
├── PAPER_COLLECTION.md                # 论文汇总（约80篇）
├── papers/
│   ├── README.md                      # 论文索引与快速检索
│   ├── 2026/                          # 2026年论文 (8篇)
│   │   ├── PIArena.md
│   │   ├── SIABench.md
│   │   ├── ESG-Bench.md
│   │   ├── SCS-Code.md
│   │   ├── ESAA-Security.md
│   │   ├── CLIOPATRA.md
│   │   └── Marked-Pedagogies.md
│   ├── 2025/                          # 2025年论文 (4篇)
│   │   ├── ActorBreaker.md
│   │   ├── APRT.md
│   │   ├── Crescendo.md
│   │   └── Nothing-in-Excess.md
│   ├── 2024/                          # 2024年论文 (26篇)
│   │   ├── AgentDojo.md
│   │   ├── Alignment-Weighted-DPO.md
│   │   ├── AuditBench.md
│   │   ├── AutoDAN.md
│   │   ├── AutoDAN-Turbo.md
│   │   ├── Cold-Attack.md
│   │   ├── Cybench.md
│   │   ├── GCG.md
│   │   ├── HaloScope.md
│   │   ├── HarmBench.md
│   │   ├── Harnessing-Task-Overload.md
│   │   ├── Jailbreak-Attacks-and-Defenses-Survey.md
│   │   ├── JailbreakBench.md
│   │   ├── LLM-Security-and-Privacy-Survey.md
│   │   ├── MLLM-Protector.md
│   │   ├── MultiJail.md
│   │   ├── PAIR.md
│   │   ├── R-Judge.md
│   │   ├── SafeGen.md
│   │   ├── Sleeper-Agents.md
│   │   ├── TrustLLM.md
│   │   ├── Tree-of-Attacks.md
│   │   └── Under-the-Influence.md
│   ├── 2023/                          # 2023年论文 (8篇)
│   │   ├── GCG.md
│   │   ├── GPTFuzzer.md
│   │   ├── Jailbroken.md
│   │   ├── Llama-Guard.md
│   │   ├── NeMo-Guardrails.md
│   │   ├── Not-What-Youve-Signed-Up-For.md
│   │   ├── Sirens-Song.md
│   │   └── Towards-Mitigating-LLM-Hallucination.md
│   ├── 2022/                          # 2022年论文 (4篇)
│   │   ├── Asleep-at-the-Keyboard.md
│   │   ├── HELM.md
│   │   ├── Red-Teaming-LMs.md
│   │   └── TruthfulQA.md
│   └── 2021/                          # 2021年论文 (1篇)
│       └── You-Autocomplete-Me.md
└── .github/                           # GitHub 配置
    └── workflows/                     # 自动化工作流

📚 论文列表

越狱攻击（10篇）

#	论文	会议/年份	核心思想	标签
1	Harnessing Task Overload	arXiv 2024	资源饱和攻击，占用计算资源绕过安全机制	`资源饱和` `计算开销`
2	AutoDAN	NeurIPS 2024	遗传算法生成隐蔽的越狱提示	`对抗生成` `隐蔽攻击` `黑盒`
3	PAIR	arXiv 2024	20次查询内越狱黑盒LLM	`黑盒攻击` `查询高效`
4	GCG	ICLR 2024	通用可迁移的对抗攻击	`对抗后缀` `白盒攻击` `可迁移`
5	Tree of Attacks	arXiv 2024	树状结构的红队攻击	`红队测试` `自动化` `树搜索`
6	Cold-Attack	arXiv 2024	隐蔽且可控的越狱攻击方法	`隐蔽攻击` `可控性`
7	AutoDAN-Turbo	arXiv 2024	终身学习策略自探索代理	`终身学习` `策略自探索` `黑盒`
8	Crescendo	USENIX Security 2025	多轮渐进式越狱攻击	`多轮攻击` `渐进式` `良性输入`
9	ActorBreaker	ACL 2025	基于行动者网络的多轮越狱攻击，通过自然分布偏移发现安全漏洞	`多轮攻击` `行动者网络` `自然分布偏移`
10	Do Anything Now	CCS 2024	首个野生越狱提示系统性测量研究，揭示8大越狱社区与攻击策略演化	`野生越狱` `社区检测` `平台迁移`

防御与安全对齐（5篇）

#	论文	会议/年份	核心思想	标签
10	MLLM-Protector	arXiv 2024	多模态模型输出端检测与解毒	`多模态` `输出检测` `轻量级`
11	Nothing in Excess	ICLR 2025	缓解过度安全对齐导致的过度拒绝	`过度拒绝` `安全对齐` `平衡`
12	Alignment-Weighted DPO	arXiv 2024	加权DPO优化安全对齐	`DPO` `加权训练` `安全对齐`
13	SafeGen	IEEE S&P 2024	T2I模型性暗示内容生成防护	`多模态` `内容过滤` `即插即用`
14	Llama Guard	Meta 2023	基于LLM的输入输出保护模型，支持prompt和response分类	`内容审核` `安全分类` `开源` `可定制`
15	NeMo Guardrails	EMNLP 2023	NVIDIA开源工具包，五类可编程护栏控制LLM对话安全性	`可编程护栏` `运行时控制` `Colang` `开源`

提示注入攻击（1篇）

#	论文	会议/年份	核心思想	标签
36	Formalizing Prompt Injection	USENIX Security 2024	形式化提示注入攻击框架，系统评估5种攻击和10种防御	`提示注入` `形式化框架` `基准测试` `USENIX`

评估基准（7篇）

#	论文	会议/年份	核心思想	标签
16	JailbreakBench	arXiv 2024	越狱攻击评估基准	`基准测试` `评估框架` `鲁棒性`
17	HarmBench	ICLR 2024	标准化安全评估框架	`安全评估` `标准化` `自动化`
18	AuditBench	arXiv 2024	安全审计基准测试	`安全审计` `评估基准`
19	AgentDojo	NeurIPS 2024	动态提示注入攻击评估环境	`动态评估` `提示注入` `智能体`
20	R-Judge	EMNLP 2024	智能体风险意识评估基准	`风险意识` `智能体` `评估基准`
21	SIABench	arXiv 2026	安全事件分析评估框架	`网络安全` `评估基准` `智能体`
22	ESG-Bench	AAAI 2026	长上下文ESG报告幻觉缓解评估	`幻觉缓解` `长上下文` `事实可靠性`
23	HELM	TMLR 2023	Stanford综合评估框架，覆盖30模型42场景7指标，提高覆盖率17.9%→96%	`评估基准` `透明度` `标准化`
24	TruthfulQA	ACL 2022	模型真实性评估基准，揭示规模与真实性负相关	`真实性` `幻觉` `评估基准` `规模悖论`

代码安全（2篇）

#	论文	会议/年份	核心思想	标签
24	SCS-Code	EuroS&P 2026	利用内部表示引导CodeLLM生成安全代码	`代码安全` `概念引导` `可解释性`
25	Asleep at the Keyboard	IEEE S&P 2022	系统评估GitHub Copilot生成代码安全性，发现约40%存在漏洞，基于CWE Top 25三大维度分析	`代码安全` `AI编程助手` `CWE Top 25`
26	DiaHalu	arXiv 2024	对话级幻觉评估基准	`幻觉检测` `对话系统` `基准测试`

红队测试（2篇）

#	论文	会议/年份	核心思想	标签
26	APRT	COLING 2025	自动化渐进式红队测试	`红队测试` `渐进式` `自动化`
27	Tree of Attacks	arXiv 2024	树状结构的红队攻击	`红队测试` `树搜索`

其他重要论文（7篇）

#	论文	会议/年份	核心思想	标签
28	Jailbreak Attacks and Defenses Survey	arXiv 2024	越狱攻击与防御全面综述	`综述` `攻击` `防御` `分类`
29	Under the Influence	arXiv 2024	提示注入攻击与防御	`提示注入` `上下文操控`
30	LLM Security and Privacy Survey	arXiv 2024	LLM安全与隐私全面综述	`综述` `全景`
31	TrustLLM	arXiv 2024	LLM可信度六维评估基准	`综述` `可信度` `评估基准`
32	Jailbroken: How Does LLM Safety Training Fail?	NeurIPS 2023	LLM安全训练失败原因分析	`安全训练` `漏洞分析`
33	Siren's Song: LLM幻觉综述	arXiv 2023	LLM幻觉全面综述：分类、评估、来源与缓解	`幻觉` `综述` `可靠性`
34	Towards Mitigating LLM Hallucination via Self-Reflection	EMNLP 2023	交互式自我反思方法减少医学QA中的幻觉	`幻觉缓解` `自我反思` `医学QA`
35	Not What You've Signed Up For	AISec 2023	间接提示注入攻击：无需直接接口即可远程攻击LLM集成应用	`间接注入` `远程攻击` `数据与指令混淆`

📝 阅读指南

笔记格式标准

每篇完整笔记包含以下章节：

基本信息 - 标题、作者、会议、链接、引用
研究背景 - 问题定义、现有方法局限
核心贡献 - 主要创新点
研究方法 - 技术细节、算法流程
实验设置 - 数据集、评估指标
实验结果 - 关键结果、性能对比
策略示例 - 提示模板、攻击/防御流程
消融实验 - 各组件贡献分析
局限性 - 方法限制、改进方向
伦理声明 - 研究伦理、数据使用
参考文献 - 相关论文列表

进阶阅读路径

入门 → 综述 → 攻击方法 → 防御方法 → 评估基准 → 前沿研究

🤝 贡献方式

欢迎贡献！你可以通过以下方式参与：

补充笔记 - 完善标记为 📝 的论文笔记
上传新论文 - 将 PAPER_COLLECTION.md 中的论文整理上传到 papers/ 目录
修正错误 - 发现笔记中的错误请提 Issue 或 PR
添加分类 - 建议新的论文分类或标签

提交规范

使用 Markdown 格式
遵循现有笔记的结构模板
添加适当的标签和分类
注明参考来源

📖 相关资源

📚 论文汇总 - 约80篇LLM Safety论文完整列表（2021-2026）
📚 arXiv CS.CR - 最新安全论文
🔬 HarmBench Leaderboard - 安全评估排行榜
🏆 JailbreakBench - 越狱攻击基准

📌 更新日志

日期	更新内容
2026-04-17	添加论文：Do Anything Now - 野生越狱提示特征分析与评估 (CCS 2024)，更新进度至 54/80
2026-04-16	添加论文：You Autocomplete Me - 神经代码补全投毒攻击 (USENIX Security 2021)，更新进度至 53/80
2026-04-15	添加论文：Asleep at the Keyboard - GitHub Copilot安全评估 (IEEE S&P 2022)，更新进度至 52/80
2026-04-14	添加论文：HELM - Holistic Evaluation of Language Models，Stanford综合评估框架 (TMLR 2023)，更新进度至 51/80
2026-04-08	添加论文：COLD-Attack - 可控越狱攻击框架，连接可控攻击生成与可控文本生成 (ICML 2024)，更新进度至 46/80
2026-04-06	添加论文：Formalizing Prompt Injection - 形式化提示注入攻击与防御框架 (USENIX Security 2024)，更新进度至 45/80
2026-04-05	添加论文：DiaHalu - 对话级幻觉评估基准 (EMNLP 2024 Findings)，更新进度至 44/80
2026-04-02	添加论文：Not What You've Signed Up For - 间接提示注入攻击 (AISec 2023)，更新进度至 43/80
2026-03-31	添加论文：Towards Mitigating LLM Hallucination via Self-Reflection - 交互式自我反思方法减少医学QA幻觉 (EMNLP 2023)，更新进度至 41/80
2026-03-30	添加论文：TrustLLM - 大型语言模型可信度综合评估基准 (arXiv 2024)，更新进度至 37/80
2026-03-25	添加论文：DiaHalu - 对话级幻觉评估基准 (arXiv 2024)，更新进度至 36/80
2026-03-25	添加论文：Marked Pedagogies - LLMs在个性化写作反馈中的语言偏见 (LAK 2026)，更新进度至 35/80
2026-03-24	添加论文：Proteus - 隐私保护设备日志框架 (CCS 2026)，更新进度至 34/80
2026-03-23	添加论文：Llama Guard - 基于LLM的输入输出保护模型 (Meta 2023)，更新进度至 33/80
2026-03-21	添加论文：ESAA-Security - 事件溯源可验证AI代码安全审计架构，更新进度至 31/80
2026-03-21	添加论文：CLIOPATRA - 针对LLM洞察系统的首个隐私攻击（Extracting Private Information from LLM Insights），更新进度至 30/80
2026-03-21	添加论文：SCS-Code - 利用内部表示引导CodeLLM生成安全代码 (EuroS&P 2026)，更新进度至 29/80
2026-03-21	添加论文：ESG-Bench - 长上下文ESG报告幻觉缓解评估 (AAAI 2026)，更新进度至 25/80
2026-03-21	重构 papers 目录: 按发表年份分目录整理 (2023/2024/2025/2026)
2026-03-21	删除重复论文: LLMs-know-their-vulnerabilities.md (与ActorBreaker.md重复)
2026-03-21	修正论文：ActorBreaker (v2最新版本) - 更新标题、方法名、代码链接
2026-03-21	添加论文：Jailbroken - LLM安全训练失败原因分析 (NeurIPS 2023)
2026-03-20	添加论文：Crescendo - 多轮渐进式LLM越狱攻击 (USENIX Security 2025)
2026-03-19	添加论文：SIABench - 安全事件分析评估框架
2026-03-19	更新论文：AgentDojo - 添加完整的12章详细阅读笔记
2026-03-18	添加论文：Jailbreak Attacks and Defenses Against LLMs - A Survey
2026-03-17	初始化仓库，上传 23 篇论文笔记，完善 README 结构，添加论文汇总

笔记由 AI 助手辅助整理，基于 arXiv 公开信息生成。

如有问题或建议，欢迎提交 Issue。

Name		Name	Last commit message	Last commit date
Latest commit History 274 Commits
papers		papers
practical-notes		practical-notes
PAPER_COLLECTION.md		PAPER_COLLECTION.md
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

LLM Safety Papers Reading Notes

📑 目录

📊 项目概况

🧭 快速导航

按攻击类型

按防御类型

按评估基准

其他重要方向

📁 仓库结构

📚 论文列表

越狱攻击（10篇）

防御与安全对齐（5篇）

提示注入攻击（1篇）

评估基准（7篇）

代码安全（2篇）

红队测试（2篇）

其他重要论文（7篇）

📝 阅读指南

笔记格式标准

推荐阅读路径

进阶阅读路径

🤝 贡献方式

提交规范

📖 相关资源

📌 更新日志

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Folders and files

Latest commit

History

Repository files navigation

LLM Safety Papers Reading Notes

📑 目录

📊 项目概况

🧭 快速导航

按攻击类型

按防御类型

按评估基准

其他重要方向

📁 仓库结构

📚 论文列表

越狱攻击（10篇）

防御与安全对齐（5篇）

提示注入攻击（1篇）

评估基准（7篇）

代码安全（2篇）

红队测试（2篇）

其他重要论文（7篇）

📝 阅读指南

笔记格式标准

推荐阅读路径

进阶阅读路径

🤝 贡献方式

提交规范

📖 相关资源

📌 更新日志

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Packages