TFT Agent OS 是一个面向《云顶之弈》的实验性 Agent 系统,目标是构建一个能够:
- 自动读取游戏画面
- 理解当前局势
- 做出策略决策
- 执行游戏操作
- 并逐步实现自我优化
的“类操作系统级”智能体框架。
这是一个 Research + Engineering 混合项目,不仅关注“能不能做”,也关注“应该怎么做”。
系统采用分层结构:
Perception → State → Decision → Action → Feedback → Memory → Evolution
-
Perception(感知)
- 输入:游戏截图
- 输出:结构化状态(JSON)
-
State(状态表示)
- 将视觉信息压缩为可用于决策的抽象表示
-
Decision(决策)
- 基于当前状态 + 历史信息生成策略
- 当前阶段以 LLM 为核心
-
Action(执行)
- 将决策转换为具体操作(鼠标 / 键盘)
-
Feedback(反馈)
- 获取结果(血量变化 / 胜负 / 排名)
-
Memory(记忆)
- 存储对局信息、策略经验
- 支持检索与复用
-
Evolution(进化)
- 基于历史数据优化策略
- 长期目标:实现自我提升闭环
负责从游戏画面提取信息:
- 金币 / 血量(OCR)
- 棋盘状态(棋子识别)
- 商店信息
技术路径:
- 传统CV(模板匹配)
- 深度学习(YOLO + OCR)
核心策略模块:
输入:
- 当前状态(JSON)
- Memory 检索结果
- Prompt(策略约束)
输出:
- 行动指令(如:买棋子 / 升级 / 刷新)
关键问题:
- token成本
- 决策稳定性
- 幻觉控制
分为:
- 短期记忆(单局上下文)
- 长期记忆(策略经验)
- 技能记忆(可复用模式)
作用:
- 提供上下文
- 支持策略改进
- 支持自我学习
将决策转为具体操作:
- 鼠标点击
- 键盘输入
实现方式:
- 自动化工具(如 pyautogui)
- 系统级输入接口
挑战:
- 精度(坐标)
- 延迟
- 稳定性
长期目标模块:
- 记录对局
- 分析策略效果
- 更新决策逻辑
可能路径:
- LLM Reflection(自我反思)
- 模仿学习(Imitation Learning)
- 强化学习(RL)
核心问题:
- reward 定义
- 策略更新机制
tft-agent-os/
│
├── docs/
│ ├── architecture/ # 系统整体设计
│ ├── modules/ # 各模块说明
│ ├── evolution/ # 自我进化设计
│ └── roadmap.md # 版本规划
│
├── tasks/ # 任务管理
│
├── experiments/ # 实验代码(主要开发区)
│
├── src/ # 稳定模块(后期)
│
└── README.md
项目采用分阶段推进:
目标:打通最小闭环
- 基础画面识别
- 简单规则决策(非LLM)
- 操作执行
👉 输出:能“自动打一局”
- 接入 LLM 决策
- 状态结构化
- Prompt 设计
(内部文档,持续更新)