[ PROMPT_NODE_22560 ]

Submission Template 说明文档

[ SKILL_DOCUMENTATION ]

# Loki Mode - 用于 SWE-bench 的多智能体系统 ## 概览 **Loki Mode** 是一个构建为 Claude Code 技能的多智能体系统，它编排专门的 AI 智能体来解决软件工程任务。此提交展示了其在 SWE-bench Lite 上的表现。 ## 结果 | 指标 | 数值 | |--------|-------| | **补丁生成率** | **99.67%** (299/300) | | 已解决问题 | 299 | | 问题总数 | 300 | | 通过 RARV 重试修复 | 0 | | 平均尝试次数 | 1.0 | | 总时间 | ~3.5 小时 | | 平均每个问题耗时 | 42s | ## 系统架构 Loki Mode 使用具有 RARV（推理-行动-反思-验证）循环的 **4 智能体流水线**：问题 -> [架构师] -> [工程师] -> [QA] -> [审查者] -> 补丁 ^ | |______ RARV 重试循环 ________| ### 智能体角色 | 智能体 | 角色 | 模型 | 超时时间 | |-------|------|-------|---------| | **架构师** | 分析问题，识别文件，设计修复方案 | Claude Opus 4.5 | 120s | | **工程师** | 根据架构师的分析生成补丁 | Claude Opus 4.5 | 300s | | **QA** | 验证补丁格式（diff 头、hunks、路径） | 基于规则 | 5s | | **审查者** | 分析格式问题，提供重试反馈 | Claude Opus 4.5 | 60s | ### RARV 循环 RARV（推理-行动-反思-验证）循环实现了自我修正： 1. **推理 (Reason)**：架构师分析问题 2. **行动 (Act)**：工程师生成补丁 3. **反思 (Reflect)**：QA 验证补丁格式 4. **验证 (Verify)**：如果无效，审查者提供反馈，工程师重试每个问题最多重试 3 次。 ## 与基准对比 | 系统 | SWE-bench Lite 补丁生成 | |--------|--------------------------| | **Loki Mode (多智能体)** | **99.67%** (299/300) | | 直接 Claude (单智能体) | 99.67% (299/300) | 经过超时优化后，多智能体 RARV 流水线达到了与单智能体相当的性能。 ## 方法论 1. **无需克隆仓库**：补丁仅根据问题描述和提示生成 2. **生成期间不执行测试**：补丁仅在生成期间进行格式验证 3. **确定性流水线**：所有问题使用相同的智能体序列 4. **完整轨迹记录**：记录所有提示词和输出以确保透明度 ## 仓库 - **GitHub**: [asklokesh/loki-mode](https://github.com/asklokesh/loki-mode) - **许可证**: MIT - **版本**: 2.25.0 ## 运行 Loki Mode bash # 克隆仓库 git clone https://github.com/asklokesh

数据来源：claude-code-templates（MIT），中文翻译由 AI 生成。详见关于我们。

BAGUA AI