[ PROMPT_NODE_22862 ]

Post Training Simpo 数据集

[ SKILL_DOCUMENTATION ]

# 数据集 SimPO 训练偏好数据集的完整指南。 ## 数据集格式 ### 必需字段偏好数据集必须包含： { "prompt": "用户问题或指令", "chosen": "更好/首选的回复", "rejected": "更差/被拒绝的回复" } **替代字段名称** (自动检测)： - `prompt` → `question`, `instruction`, `input` - `chosen` → `response_chosen`, `winner`, `preferred` - `rejected` → `response_rejected`, `loser` ### 示例条目 { "prompt": "用简单的术语解释量子计算。", "chosen": "量子计算使用量子位 (qubits)，它们可以通过叠加态同时存在于多种状态。这使得量子计算机能够同时处理多种可能性，从而在密码学和优化等特定任务上可能比传统计算机快得多。", "rejected": "就像普通计算，但是是量子的。" } ## 热门数据集 ### 1. UltraFeedback (推荐) **HuggingFaceH4/ultrafeedback_binarized**： - **规模**: 60K 偏好对 - **质量**: 高 (GPT-4 标注) - **领域**: 通用指令遵循 - **格式**: 清洁，即用型 **配置**： yaml dataset_mixer: HuggingFaceH4/ultrafeedback_binarized: 1.0 dataset_splits: - train_prefs - test_prefs ### 2. Argilla UltraFeedback (已清洗) **argilla/ultrafeedback-binarized-preferences-cleaned**： - **规模**: 50K 对 (已过滤) - **质量**: 极高 (去重、清洗) - **领域**: 通用 - **格式**: 清洁 **配置**： yaml dataset_mixer: argilla/ultrafeedback-binarized-preferences-cleaned: 1.0 ### 3. Distilabel Math **argilla/distilabel-math-preference-dpo**： - **规模**: 30K 对 - **质量**: 高 (GSM8K, MATH) - **领域**: 数学推理 - **格式**: 数学专用 **配置**： yaml dataset_mixer: argilla/distilabel-math-preference-dpo: 1.0 ### 4. HelpSteer **nvidia/HelpSteer**： - **规模**: 38K 样本 - **质量**: 高 (人工评分) - **领域**: 帮助性对齐 - **格式**: 多属性评分 **配置**： yaml dataset_mixer: nvidia/HelpSteer: 1.0 ### 5. Anthropic HH-RLHF **Anthropic/hh-rlhf**： - **规模**: 161K 样本 - **质量**: 高 (人类偏好) - **领域**: 无害 + 帮助性 - **格式**: 对话式 **配置**： yaml dataset_mixer: Anthropic/hh-rlhf: 1.0 ## 数据集混合 ### 多个数据集 **等比混合**： yaml dataset_mixer: HuggingFaceH4/ultrafee

数据来源：claude-code-templates（MIT），中文翻译由 AI 生成。详见关于我们。

BAGUA AI