跳转到内容

MT-Bench

MT-Bench

mt_bench步骤实现了多轮对话基准(MT-Bench),这是一个通过跨多个类别的结构化多轮对话评估模型性能的综合评估框架。

概述

MT-Bench是一个专门设计用于评估大型语言模型(LLM)对话和指令跟随能力的基准。与专注于封闭式短答案问题的传统基准不同,MT-Bench通过更能反映现实应用的开放式多轮对话来挑战模型。该基准由Zheng等人(2023)作为使用LLM作为评判其他语言模型的系统性研究的一部分引入,解决了高效测量人类偏好对齐的挑战。

技术实现

MT-Bench由80个精心设计的多轮问题组成,涵盖8个代表常见用例的类别:

  1. 写作:创意和专业写作任务
  2. 角色扮演:模拟特定角色或人物
  3. 信息提取:查找和组织信息
  4. 推理:逻辑推导和分析
  5. 数学:数学问题解决
  6. 编程:编程和软件开发
  7. 知识I:STEM学科问题
  8. 知识II:人文和社会科学问题

每个问题包含两个回合,第二回合通常要求模型在其第一个回答的基础上进行扩展或修改。这种多轮结构专门测试模型在对话过程中保持上下文和遵循复杂指令的能力。

评估过程使用强大的LLM(如GPT-4)作为评判者,对回答进行10分制评分。这种”LLM作为评判者”的方法已被验证与人类评估者达到80%以上的一致性,使其成为传统人类评估的可靠且可扩展的替代方案。

主要特点

MT-Bench为全面的LLM评估提供了几个优势:

  • 多轮评估:测试模型在对话回合之间保持上下文的能力
  • 多样类别:涵盖现实应用中所需的广泛能力
  • 标准化评分:在所有问题中使用一致的10分制评分系统
  • 自动评估:使用LLM评判者提供可扩展、可复现的评估
  • 人类对齐指标:专注于与人类偏好相关的标准

该基准特别有效地检测出在传统能力基准上表现相似但在人类偏好对齐方面存在差异的模型之间的差异。

模型兼容性

MT-Bench设计用于评估具有对话能力的指令调优语言模型。适用于:

  • 面向聊天优化的LLM(如ChatGPT、Claude、Llama-2-Chat)
  • 指令调优的基础模型
  • 多轮对话助手

没有指令跟随能力的基础语言模型可能在此基准上表现不佳,因为它需要理解复杂的多部分指令并在回合之间保持连贯性。

使用场景

MT-Bench在以下情况下特别有价值:

  • 评估模型的对话和指令跟随能力
  • 比较在传统知识基准上表现相似的模型
  • 评估模型处理复杂多步骤指令的能力
  • 测量模型在交互场景中与人类偏好的一致性
  • 跨多种技能类别对模型进行基准测试

这一基准通过提供更接近现实世界用户满意度的模型性能评估,补充了传统的以能力为中心的基准。

实现细节

MT-Bench的实现遵循以下步骤:

  1. 问题生成:向模型提出精心设计的第一轮问题
  2. 回答收集:记录模型对第一个问题的回答
  3. 跟进:提出与第一次交流相关的第二轮问题
  4. 最终回答:记录模型对第二个问题的回答
  5. 评估:使用LLM评判者在10分制上评估每个回答
  6. 评分:计算所有问题和回合的平均分数

评估可以通过配对比较(比较两个不同模型的回答)或单答案评分(独立评分每个回答)进行。后者更具可扩展性,并已被证明与人类判断有良好的相关性。

为解决LLM评判者可能存在的偏见,尤其是对于涉及复杂推理或数学计算的问题,可能会采用位置交换、思维链提示和参考引导评估等技术。

延伸阅读

要全面了解MT-Bench和LLM作为评判者的方法,请参考:

Zheng, L., Chiang, W., Sheng, Y., Zhuang, S., Wu, Z., Zhuang, Y., Lin, Z., Li, Z., Li, D., Xing, E. P., Zhang, H., Gonzalez, J. E., & Stoica, I. (2023). Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena. 发表于第37届神经信息处理系统会议(NeurIPS)数据集和基准跟踪. https://arxiv.org/abs/2306.05685

这篇论文介绍了MT-Bench的设计,分析了LLM作为评判者的方法,并通过广泛的实验验证了其与人类偏好的一致性。