[ PROMPT_NODE_22408 ]
dataset-formats
[ SKILL_DOCUMENTATION ]
# Axolotl - Dataset-Formats
**页数:** 9
---
## 自定义预分词数据集
**URL:** https://docs.axolotl.ai/docs/dataset-formats/tokenized.html
**内容:**
- 自定义预分词数据集
**示例:**
示例 1 (yaml):
yaml
datasets:
- path: /path/to/your/file.jsonl
ds_type: json
type:
示例 2 (json):
{"input_ids":[271,299,99],"attention_mask":[1,1,1],"labels":[271,-100,99]}
{"input_ids":[87,227,8383,12],"attention_mask":[1,1,1,1],"labels":[87,227,8383,12]}
---
## 数据集格式
**URL:** https://docs.axolotl.ai/docs/dataset-formats/index.html
**内容:**
- 数据集格式
- 预训练
- 从 Hugging Face hub 数据集进行预训练
- 从本地数据集文件进行预训练
- 不使用流式传输进行预训练
- 预训练数据集配置技巧
- 设置 max_steps
- Group_by_length
- 参考
- 有监督微调 (SFT)
Axolotl 是一个训练框架,旨在通过简单地传递配置文件 yaml 文件,使过程对用户既方便又灵活。
由于 Axolotl 中有许多可用选项,本指南旨在简化用户选择合适选项的体验。
Axolotl 支持 3 种训练方法:预训练、有监督微调和基于偏好的后训练(例如 DPO、ORPO、PRMs)。每种方法都有其自己的数据集格式,如下所述。
本指南将主要使用 JSONL 作为介绍。请参阅数据集加载文档以了解如何从其他来源加载数据集。
对于 pretraining_dataset:具体请参阅预训练部分。
当目标是在大型文本数据集语料库上进行训练时,预训练是您的首选。由于这些数据集的规模,在开始训练之前下载整个数据集将非常耗时。Axolotl 支持流式传输,一次仅将批次加载到内存中。
预训练数据集的样本格式如下:
由于其灵活性和简单性,通常建议将数据集保存为 .jsonl。
Axolotl 支持从 Hugging Face hub 仓库或本地文件加载。
例如,要使用 Hugging Face 数据集 hf_org/name 进行训练,您可以传递以下配置:
给定几个语料库文件:A.jsonl、B.jsonl 和 C.jsonl,您的配置将如下所示:
虽然我们推荐 .jsonl,但您也可以使用 Dataset.load_dataset 支持的其他格式(csv、parquet、arrow、SQL、Webdataset)
In