[ PROMPT_NODE_22862 ]
Post Training Simpo 数据集
[ SKILL_DOCUMENTATION ]
# 数据集
SimPO 训练偏好数据集的完整指南。
## 数据集格式
### 必需字段
偏好数据集必须包含:
{
"prompt": "用户问题或指令",
"chosen": "更好/首选的回复",
"rejected": "更差/被拒绝的回复"
}
**替代字段名称** (自动检测):
- `prompt` → `question`, `instruction`, `input`
- `chosen` → `response_chosen`, `winner`, `preferred`
- `rejected` → `response_rejected`, `loser`
### 示例条目
{
"prompt": "用简单的术语解释量子计算。",
"chosen": "量子计算使用量子位 (qubits),它们可以通过叠加态同时存在于多种状态。这使得量子计算机能够同时处理多种可能性,从而在密码学和优化等特定任务上可能比传统计算机快得多。",
"rejected": "就像普通计算,但是是量子的。"
}
## 热门数据集
### 1. UltraFeedback (推荐)
**HuggingFaceH4/ultrafeedback_binarized**:
- **规模**: 60K 偏好对
- **质量**: 高 (GPT-4 标注)
- **领域**: 通用指令遵循
- **格式**: 清洁,即用型
**配置**:
yaml
dataset_mixer:
HuggingFaceH4/ultrafeedback_binarized: 1.0
dataset_splits:
- train_prefs
- test_prefs
### 2. Argilla UltraFeedback (已清洗)
**argilla/ultrafeedback-binarized-preferences-cleaned**:
- **规模**: 50K 对 (已过滤)
- **质量**: 极高 (去重、清洗)
- **领域**: 通用
- **格式**: 清洁
**配置**:
yaml
dataset_mixer:
argilla/ultrafeedback-binarized-preferences-cleaned: 1.0
### 3. Distilabel Math
**argilla/distilabel-math-preference-dpo**:
- **规模**: 30K 对
- **质量**: 高 (GSM8K, MATH)
- **领域**: 数学推理
- **格式**: 数学专用
**配置**:
yaml
dataset_mixer:
argilla/distilabel-math-preference-dpo: 1.0
### 4. HelpSteer
**nvidia/HelpSteer**:
- **规模**: 38K 样本
- **质量**: 高 (人工评分)
- **领域**: 帮助性对齐
- **格式**: 多属性评分
**配置**:
yaml
dataset_mixer:
nvidia/HelpSteer: 1.0
### 5. Anthropic HH-RLHF
**Anthropic/hh-rlhf**:
- **规模**: 161K 样本
- **质量**: 高 (人类偏好)
- **领域**: 无害 + 帮助性
- **格式**: 对话式
**配置**:
yaml
dataset_mixer:
Anthropic/hh-rlhf: 1.0
## 数据集混合
### 多个数据集
**等比混合**:
yaml
dataset_mixer:
HuggingFaceH4/ultrafee