[ PROMPT_NODE_22868 ]

slime-rl-training

[ SKILL_DOCUMENTATION ]

# slime: 用于 RL 扩展的 LLM 后训练框架 slime 是清华大学 THUDM 团队推出的 LLM 后训练框架，为 GLM-4.5、GLM-4.6 和 GLM-4.7 提供支持。它将用于训练的 Megatron-LM 与用于高吞吐量 Rollout 生成的 SGLang 连接起来。 ## 何时使用 slime **在以下情况选择 slime：** - 需要 Megatron-LM 原生训练与 SGLang 推理结合 - 具有灵活数据缓冲区的自定义数据生成工作流 - 训练 GLM、Qwen3、DeepSeek V3 或 Llama 3 模型 - 需要研究级框架且有生产环境支持 (Z.ai) **在以下情况考虑替代方案：** - 需要企业级稳定性功能 → 使用 **miles** - 想要灵活的后端切换 → 使用 **verl** - 需要 PyTorch 原生抽象 → 使用 **torchforge** ## 关键特性 - **训练**: 支持全并行（TP, PP, DP, SP）的 Megatron-LM - **Rollout**: 基于 SGLang 的高吞吐量生成与路由 - **数据缓冲区**: 灵活的提示词管理和样本存储 - **模型**: GLM-4.x, Qwen3, DeepSeek V3/R1, Llama 3 ## 架构概述 ┌─────────────────────────────────────────────────────────┐ │ 数据缓冲区 │ │ - 提示词初始化与管理 │ │ - 自定义数据生成与过滤 │ │ - Rollout 样本存储 │ └─────────────┬───────────────────────────┬───────────────┘ │ │ ┌─────────────▼───────────┐ ┌─────────────▼───────────────┐ │ 训练 (Megatron-LM) │ │ Rollout (SGLang + 路由) │ │ - Actor 模型训练 │ │ - 回复生成 │ │ - Critic (可选) │ │ - 奖励/验证器输出 │ │ - 权重同步至 Rollout │ │ - 多轮对话支持 │ └─────────────────────────┘ └─────────────────────────────┘ ## 安装 bash # 推荐: Docker docker pull slimerl/slime:latest docker run --rm --gpus all --ipc=host --shm-size=16g -it slimerl/slime:latest /bin/bash # 在容器内 cd /root/slime && pip install -e . --no-deps ### 从源码安装 bash git clone https://github.com/THUDM/slime.git cd slime pip install -r requirements.txt pip install -e . ## 快速开始: GRPO 训练 bash # 源模型配置 source scripts/models/qwen3-4B.sh # 启动训练 python train.py --actor-num-nodes 1 --actor-num-gpus-per-node 4 --rollout-num-gpus 4 --advantage-estimator grpo --use-kl-loss --kl-loss-coef 0.001 --r

数据来源：claude-code-templates（MIT），中文翻译由 AI 生成。详见关于我们。

BAGUA AI