[ PROMPT_NODE_22560 ]
Submission Template 说明文档
[ SKILL_DOCUMENTATION ]
# Loki Mode - 用于 SWE-bench 的多智能体系统
## 概览
**Loki Mode** 是一个构建为 Claude Code 技能的多智能体系统,它编排专门的 AI 智能体来解决软件工程任务。此提交展示了其在 SWE-bench Lite 上的表现。
## 结果
| 指标 | 数值 |
|--------|-------|
| **补丁生成率** | **99.67%** (299/300) |
| 已解决问题 | 299 |
| 问题总数 | 300 |
| 通过 RARV 重试修复 | 0 |
| 平均尝试次数 | 1.0 |
| 总时间 | ~3.5 小时 |
| 平均每个问题耗时 | 42s |
## 系统架构
Loki Mode 使用具有 RARV(推理-行动-反思-验证)循环的 **4 智能体流水线**:
问题 -> [架构师] -> [工程师] -> [QA] -> [审查者] -> 补丁
^ |
|______ RARV 重试循环 ________|
### 智能体角色
| 智能体 | 角色 | 模型 | 超时时间 |
|-------|------|-------|---------|
| **架构师** | 分析问题,识别文件,设计修复方案 | Claude Opus 4.5 | 120s |
| **工程师** | 根据架构师的分析生成补丁 | Claude Opus 4.5 | 300s |
| **QA** | 验证补丁格式(diff 头、hunks、路径) | 基于规则 | 5s |
| **审查者** | 分析格式问题,提供重试反馈 | Claude Opus 4.5 | 60s |
### RARV 循环
RARV(推理-行动-反思-验证)循环实现了自我修正:
1. **推理 (Reason)**:架构师分析问题
2. **行动 (Act)**:工程师生成补丁
3. **反思 (Reflect)**:QA 验证补丁格式
4. **验证 (Verify)**:如果无效,审查者提供反馈,工程师重试
每个问题最多重试 3 次。
## 与基准对比
| 系统 | SWE-bench Lite 补丁生成 |
|--------|--------------------------|
| **Loki Mode (多智能体)** | **99.67%** (299/300) |
| 直接 Claude (单智能体) | 99.67% (299/300) |
经过超时优化后,多智能体 RARV 流水线达到了与单智能体相当的性能。
## 方法论
1. **无需克隆仓库**:补丁仅根据问题描述和提示生成
2. **生成期间不执行测试**:补丁仅在生成期间进行格式验证
3. **确定性流水线**:所有问题使用相同的智能体序列
4. **完整轨迹记录**:记录所有提示词和输出以确保透明度
## 仓库
- **GitHub**: [asklokesh/loki-mode](https://github.com/asklokesh/loki-mode)
- **许可证**: MIT
- **版本**: 2.25.0
## 运行 Loki Mode
bash
# 克隆仓库
git clone https://github.com/asklokesh