[ PROMPT_NODE_22408 ]

dataset-formats

[ SKILL_DOCUMENTATION ]

# Axolotl - Dataset-Formats **页数:** 9 --- ## 自定义预分词数据集 **URL:** https://docs.axolotl.ai/docs/dataset-formats/tokenized.html **内容:** - 自定义预分词数据集 **示例:** 示例 1 (yaml): yaml datasets: - path: /path/to/your/file.jsonl ds_type: json type: 示例 2 (json): {"input_ids":[271,299,99],"attention_mask":[1,1,1],"labels":[271,-100,99]} {"input_ids":[87,227,8383,12],"attention_mask":[1,1,1,1],"labels":[87,227,8383,12]} --- ## 数据集格式 **URL:** https://docs.axolotl.ai/docs/dataset-formats/index.html **内容:** - 数据集格式 - 预训练 - 从 Hugging Face hub 数据集进行预训练 - 从本地数据集文件进行预训练 - 不使用流式传输进行预训练 - 预训练数据集配置技巧 - 设置 max_steps - Group_by_length - 参考 - 有监督微调 (SFT) Axolotl 是一个训练框架，旨在通过简单地传递配置文件 yaml 文件，使过程对用户既方便又灵活。由于 Axolotl 中有许多可用选项，本指南旨在简化用户选择合适选项的体验。 Axolotl 支持 3 种训练方法：预训练、有监督微调和基于偏好的后训练（例如 DPO、ORPO、PRMs）。每种方法都有其自己的数据集格式，如下所述。本指南将主要使用 JSONL 作为介绍。请参阅数据集加载文档以了解如何从其他来源加载数据集。对于 pretraining_dataset：具体请参阅预训练部分。当目标是在大型文本数据集语料库上进行训练时，预训练是您的首选。由于这些数据集的规模，在开始训练之前下载整个数据集将非常耗时。Axolotl 支持流式传输，一次仅将批次加载到内存中。预训练数据集的样本格式如下：由于其灵活性和简单性，通常建议将数据集保存为 .jsonl。 Axolotl 支持从 Hugging Face hub 仓库或本地文件加载。例如，要使用 Hugging Face 数据集 hf_org/name 进行训练，您可以传递以下配置：给定几个语料库文件：A.jsonl、B.jsonl 和 C.jsonl，您的配置将如下所示：虽然我们推荐 .jsonl，但您也可以使用 Dataset.load_dataset 支持的其他格式（csv、parquet、arrow、SQL、Webdataset） In

数据来源：claude-code-templates（MIT），中文翻译由 AI 生成。详见关于我们。

BAGUA AI