跳转到内容

多项选择评测

多项选择评测

simple_multiple_choice 步骤是 FreeEval 中最基础的评测形式。它测试模型从一组选项中选择正确答案的能力。

概述

多项选择评测直观且易于解释,使其成为大语言模型评测中最广泛使用的方法之一。模型会收到一个问题和一组可能的答案,然后必须选择正确的答案。

技术实现

此步骤实现了一种生成式评测方法。在评估模型时,它会接收包含问题和答案选项(通常标记为 A、B、C、D)的格式化提示。模型随后生成对此提示的自由形式文本响应。评测系统分析此响应以确定模型选择了哪个选项,使用模式匹配来识别字母标识符(A、B、C、D)和答案选项中的关键短语。为了提高可靠性,同一问题的多次运行结果可以进行聚合。

主要特点

多项选择评测步骤提供直接的准确率测量,根据正确响应自动计算分数。它支持包括ARC、MMLU等在内的各种多项选择数据集,具有灵活的格式化选项。该步骤包括不同的答案聚合方法,如平均分计算、投票,以及忽略增强数据的选项。为了增加稳健性,它可以创建问题的排列组合,以测试相同选项不同排序下的一致性。

模型兼容性

这种方法的主要优势之一是其在不同模型类型上的通用性。它适用于FreeEval中的所有模型类型,包括本地Hugging Face模型和远程API模型。由于它不需要访问标记概率或其他内部模型特性,因此它兼容开源和闭源模型,使其成为评估黑盒系统的理想选择。

使用场景

当您需要在具有明确正确答案的标准知识和推理测试上对模型进行基准测试时,此步骤最为适用。它在结构化任务上提供清晰、可比较的指标,并允许快速评估各种领域。当评估无法访问内部概率分布的黑盒模型时,这种方法尤其有价值。

实现细节

实现过程首先加载多项选择数据集并将每个问题处理成标准格式。然后,它将这些格式化的问题发送给模型进行预测。系统不是简单地接受生成的文本,而是使用正则表达式和文本匹配来识别模型选择的答案。在处理所有响应后,它聚合结果并计算总体准确率指标,提供清晰的模型性能图景。

常用数据集

这种评测方法有效地适用于许多内置数据集,包括ARC(AI2推理挑战)、MMLU(大规模多任务语言理解)、TruthfulQA、HellaSwag、CEval、MedMCQA和Reclor。这些数据集分别测试模型知识和推理能力的不同方面。

延伸阅读

有关生成式方法(如本步骤)和基于概率的方法(如 cloze_prompt 步骤)之间详细比较,请参考:

Robinson, J., & Wingate, D. (2023). Leveraging Large Language Models for Multiple Choice Question Answering. 发表于国际学习表示会议 (ICLR). https://openreview.net/forum?id=yKbprarjc5B

该论文对多项选择评测的不同方法进行了全面分析,包括它们的优势、劣势以及每种方法最适用的场景。