Skip to content

MinLiBuilds/MinLiBuilds

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 

Repository files navigation

Banner

Min Li / 李敏

Tsinghua AI Research Beijing


关于我

清华大学计算机科学与技术系毕业,研究方向为大规模语言模型推理优化与分布式系统。目前专注于将 AI 技术落地到真实业务场景中,解决实际工程问题。

从本科阶段就开始接触自然语言处理和深度学习,在清华的几年里系统学习了编译原理、分布式计算、高性能计算和机器学习理论。这些底层功底让我在后来做 AI 应用时,不只是调 API,而是能深入到模型推理层面去做优化。

毕业后在几家公司做过基础设施和 AI 平台相关的工作,涉及模型部署、推理加速、成本优化、缓存架构等方向。逐渐发现一个被忽视的问题:大部分团队在使用大模型时,token 消耗比理论值高出 3-5 倍,根本原因在于对缓存机制的理解不足。

这直接催生了 Cache 项目。


正在做的事

一个专注于大模型 Token 缓存优化的开源项目。从 Transformer 的 KV Cache 原理出发,逆向分析 Claude Code 源码中的缓存工程,提炼出一套可执行的优化策略。

核心发现:

  • Claude Code 的系统提示词占每轮输入的 60-80%,通过前缀缓存可以将这部分成本降低 90%
  • 多轮对话场景下,正确的缓存策略可以将 10 轮对话的总成本从 255K tokens 降到 60K tokens
  • 四类"缓存杀手"(切换模型、修改 CLAUDE.md、注入时间戳、随机工具路径)会导致 12 倍的成本惩罚
  • Sub-agent 与主线程的缓存完全独立,每次启动等于一次"迷你冷启动"

项目正在通过 BNB Chain 实现自我可持续发展,将 Token 优化的经济价值直接回馈给社区贡献者。

同样的 Max 套餐,操作习惯不同,实际可用量差距在 3~5 倍。

技术方向

大模型推理优化
├── KV Cache 机制研究
├── 前缀匹配缓存策略
├── Token 消耗分析与优化
└── 推理成本建模

分布式系统
├── 高可用架构设计
├── 缓存一致性协议
├── 分布式缓存集群
└── 边缘计算部署

AI 应用工程
├── Claude Code 源码分析
├── Agent 编排与优化
├── 提示词工程
└── 多模型协同调度

研究经历

在清华期间参与了多个与大规模模型推理相关的研究项目:

  • KV Cache 压缩与量化 -- 研究如何在不损失推理精度的前提下,将 KV 缓存的内存占用降低 40-60%。对比了 GQA (Grouped Query Attention)、MQA (Multi-Query Attention) 和标准 MHA 在不同模型规模下的缓存效率
  • Speculative Decoding -- 研究使用小模型预测草稿、大模型验证的方式加速推理。在 7B/70B 模型对上实现了 2.3x 的推理加速
  • Prompt Caching 策略 -- 系统分析了前缀匹配缓存在多租户场景下的命中率、失效模式和成本模型。这项工作直接启发了 Cache 项目

对 AI 应用的看法

大模型的算力成本是一个被严重低估的问题。

大部分开发者和团队在使用 Claude、GPT 等模型时,关注的是"能不能用",而不是"怎么用得省"。但当你把 AI 集成到生产系统中,token 消耗就变成了一个真实的成本项——每月数千到数万美元,完全取决于你对缓存机制的理解程度。

我做 Cache 项目的动机很简单:让同样的钱,做更多的事

这不是理论研究。这是一个可以立即执行、立即见效的工程方案。9 条实战策略,每一条都有源码级别的依据,每一条都可以量化节省效果。


技术栈

语言        TypeScript / Python / Rust / Go
模型        Claude / GPT / Gemma / Qwen / DeepSeek
框架        Next.js / FastAPI / Actix
推理引擎    Ollama / vLLM / TensorRT-LLM
缓存        Redis / Memcached / 自研 KV Store
基础设施    Docker / Kubernetes / Terraform
链上        BNB Chain / Solidity / Hardhat

开源贡献

除了 Cache 项目,我也在积极参与其他 AI 工具链的开源工作:

  • 对 Claude Code 缓存断裂检测机制的源码分析,帮助社区理解 promptCacheBreakDetection.ts 的工作原理
  • 为多个 AI Agent 框架提交了缓存优化相关的 PR
  • 翻译和本地化 AI 编程工具文档,降低中文开发者的使用门槛

联系方式

平台 链接
GitHub MinLiBuilds
X / Twitter @MinLiBuilds
项目 Cache / 缓存优化引擎

团队

Cache 项目不是一个人做的。感谢以下伙伴的持续贡献:

成员 方向
icebear0828 核心研究员,Token 计费机制分析
donglixp 算法工程师,KV Cache 压缩研究
zdaxie 系统架构师,分布式缓存设计
Scalsol 推理优化,Speculative Decoding
addf400 前端工程,监控面板开发
deepseek-ai 模型对接与基准测试

清华大学 CS / AI 应用工程师 / Cache 项目发起人
让同样的钱,做更多的事。

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors