跳转到内容

自指令评测

自指令评测

self_instruct 步骤实现了Self-Instruct方法，用于生成合成指令跟随数据集并用于评测。

概述

Self-Instruct允许通过使用现有语言模型创建多样化的指令-响应对，从而自动生成指令调优数据。在FreeEval中，该步骤既可以生成合成评测数据集，也可以在此类数据集上评估模型。

主要特点

数据集生成：从种子示例创建合成指令数据集
领域定制：可专注于特定领域或技能
质量过滤：包括确保高质量指令的技术
格式灵活性：支持多项选择或开放式问题生成

使用场景

在以下情况下使用此步骤：

为专业领域创建自定义评测数据集
测试模型在公共基准中不存在的指令上的表现
生成用于指令调优的额外训练数据
评估模型超出标准基准的能力

实现细节

在内部，此步骤：

从现有数据集开始，使用种子示例
使用强大的大语言模型（通常是GPT-4）生成新示例
创建变体并用新指令扩展数据集
可过滤和验证生成的示例
格式化输出以用于评测或微调

技术考虑

对于高质量的指令生成，建议使用GPT-4等强大模型。生成数据集的质量高度依赖于提供的系统提示和种子示例。