[ PROMPT_NODE_22868 ]
slime-rl-training
[ SKILL_DOCUMENTATION ]
# slime: 用于 RL 扩展的 LLM 后训练框架
slime 是清华大学 THUDM 团队推出的 LLM 后训练框架,为 GLM-4.5、GLM-4.6 和 GLM-4.7 提供支持。它将用于训练的 Megatron-LM 与用于高吞吐量 Rollout 生成的 SGLang 连接起来。
## 何时使用 slime
**在以下情况选择 slime:**
- 需要 Megatron-LM 原生训练与 SGLang 推理结合
- 具有灵活数据缓冲区的自定义数据生成工作流
- 训练 GLM、Qwen3、DeepSeek V3 或 Llama 3 模型
- 需要研究级框架且有生产环境支持 (Z.ai)
**在以下情况考虑替代方案:**
- 需要企业级稳定性功能 → 使用 **miles**
- 想要灵活的后端切换 → 使用 **verl**
- 需要 PyTorch 原生抽象 → 使用 **torchforge**
## 关键特性
- **训练**: 支持全并行(TP, PP, DP, SP)的 Megatron-LM
- **Rollout**: 基于 SGLang 的高吞吐量生成与路由
- **数据缓冲区**: 灵活的提示词管理和样本存储
- **模型**: GLM-4.x, Qwen3, DeepSeek V3/R1, Llama 3
## 架构概述
┌─────────────────────────────────────────────────────────┐
│ 数据缓冲区 │
│ - 提示词初始化与管理 │
│ - 自定义数据生成与过滤 │
│ - Rollout 样本存储 │
└─────────────┬───────────────────────────┬───────────────┘
│ │
┌─────────────▼───────────┐ ┌─────────────▼───────────────┐
│ 训练 (Megatron-LM) │ │ Rollout (SGLang + 路由) │
│ - Actor 模型训练 │ │ - 回复生成 │
│ - Critic (可选) │ │ - 奖励/验证器输出 │
│ - 权重同步至 Rollout │ │ - 多轮对话支持 │
└─────────────────────────┘ └─────────────────────────────┘
## 安装
bash
# 推荐: Docker
docker pull slimerl/slime:latest
docker run --rm --gpus all --ipc=host --shm-size=16g
-it slimerl/slime:latest /bin/bash
# 在容器内
cd /root/slime && pip install -e . --no-deps
### 从源码安装
bash
git clone https://github.com/THUDM/slime.git
cd slime
pip install -r requirements.txt
pip install -e .
## 快速开始: GRPO 训练
bash
# 源模型配置
source scripts/models/qwen3-4B.sh
# 启动训练
python train.py
--actor-num-nodes 1
--actor-num-gpus-per-node 4
--rollout-num-gpus 4
--advantage-estimator grpo
--use-kl-loss --kl-loss-coef 0.001
--r