完形填空评测
完形填空评测
cloze_prompt 步骤评估模型在完形填空式任务上的表现,重点测试模型基于上下文补全缺失信息的能力。
概述
完形填空任务测试模型对上下文的理解和预测缺失信息的能力。这种评测方法将多项选择问题转换为模型需要确定正确补全内容而非从提供的选项中选择的格式。
技术实现
此步骤采用基于标记概率的评测方法,比生成式方法运行在更基础的层次。当面对任务时,模型接收包含占位符(如”[BLANK]“或”[MASK]“)的上下文。与生成式方法不同,该方法不依赖于文本生成,而是直接访问模型的内部概率分布。对于每个可能的答案选项,评测器计算能够完成上下文的标记的总对数概率。系统然后选择概率最高的选项作为模型的答案。这种方法可以选择性地纳入长度归一化,以考虑不同答案长度的差异。
主要特点
完形填空评测专注于评估语言模型的核心条件概率估计能力。通过直接访问原始模型概率而不依赖于生成的文本,它提供了对模型内部置信度的更直接测量。该方法支持长度归一化以考虑答案长度差异,并通过详细的概率分数提供精确的置信度测量。这种方法可以揭示在文本生成评测中可能被掩盖的模型行为的细微方面。
模型兼容性
这种评测方法有特定的技术要求,限制了其适用性。它只适用于评测系统可以访问标记级别的logits和概率的本地Hugging Face模型。这意味着它与大多数只提供文本输出的基于API的模型不兼容,也不适用于无法访问内部概率分布的黑盒模型。这一限制将其使用限制在您可以完全访问模型内部结构的场景。
使用场景
当您想在没有解析生成文本的额外复杂性的情况下评估模型的内在预测能力时,这种方法最为适用。它提供了更精确的模型置信度测量,并避免了可能影响生成式方法的响应格式问题。当在概率层面比较语言模型,或者当您需要对不同答案的模型不确定性进行细粒度洞察时,该方法特别有价值。
实现细节
实现过程首先将多项选择问题转换为具有适当占位符的完形填空格式。对于每个可能的答案选项,它准备上下文,其中占位符将被该选项填充。系统然后直接计算每个潜在答案的对数概率,完全绕过文本生成过程。计算这些概率后,它选择得分最高的答案。实现可以纳入各种概率调整,如长度归一化,以确保不同长度答案之间的公平比较。
技术考虑
完形填空评测与生成式方法相比采取了根本不同的方法,它绕过模型的文本生成层,直接使用其概率分布。这种直接访问使该方法对可能混淆基于文本的方法的格式问题更加健壮,但也显著限制了其使用范围,仅限于可以访问这些内部概率的模型。在选择评测方法时,洞察深度与适用广度之间的权衡是一个重要考虑因素。
延伸阅读
有关基于概率的方法(如本步骤)和生成式方法(如 simple_multiple_choice 步骤)之间详细比较,请参考:
Robinson, J., & Wingate, D. (2023). Leveraging Large Language Models for Multiple Choice Question Answering. 发表于国际学习表示会议 (ICLR). https://openreview.net/forum?id=yKbprarjc5B
该论文对多项选择评测的不同方法进行了全面分析,包括基于概率的方法如何在某些情况下提供更可靠的测量。