合并数据集
合并数据集
merge_dataset 步骤允许您将多个数据集合并为单一统一数据集,可用于评测或模型训练。
概述
在处理多个数据集时,将它们合并为具有一致格式的单一数据集通常很有用。此步骤提供了合并不同评测数据集的工具,在确保格式兼容的同时保持其原始结构。
主要特点
- 多数据集集成:组合来自各种源的数据集
- 格式标准化:确保合并数据的一致格式
- 训练数据准备:创建指令调优数据集
- 随机洗牌:选项可打乱合并后的数据集
使用场景
在以下情况下使用此步骤:
- 创建跨多个基准的综合评测
- 准备用于微调的合并训练数据集
- 生成混合领域指令集
- 将数据集转换为一致格式
实现细节
在内部,此步骤:
- 根据提供的配置加载多个数据集
- 将每个数据集转换为标准格式
- 将数据集合并为统一结构
- 可选择性地打乱合并数据集
- 将结果保存到指定路径
支持的模式
合并数据集步骤支持两种主要模式:
- SFT模式:为监督微调格式化数据
- PT模式:为预训练格式化数据
技术考虑
当合并具有不同结构的数据集时,您可能需要提供映射配置以确保合并数据集的格式一致性。