揭秘 Chatbot Arena 排行榜:从 ELO 到新算法,AI 大模型座次如何排定?

相信很多人都对 Chatbot Arena 不陌生。这是一个非常酷的平台,让我们可以匿名地对两个大型语言模型(LLM)的回复进行“盲选”投票,然后根据大家的偏好给模型们排座次。这个排行榜已经成为衡量 LLM 相对实力的重要参考。

但你是否好奇,这个排行榜是如何产生的?模型们的分数是怎么计算的?为什么 Chatbot Arena 还升级了排名算法?今天,我们就来一起揭开它背后的秘密。

一开始,用 ELO 来给模型排座次

你可能在国际象棋或者一些电子竞技中听说过 ELO 等级分系统。简单来说,这是一个计算选手相对实力水平的方法:

  • 初始分数: 每个新“选手”(在 Chatbot Arena 里就是每个 LLM)都有一个初始分数。
  • 比赛决胜负: 当两个模型进行“对战”(即用户选择了其中一个模型的回复更优),“胜利”的模型会从“失败”的模型那里“赢”走一些分数。
  • 分数调整: 赢了比自己分高的对手,分数涨得更多;输了给比自己分低的对手,分数掉得也更狠。反之,如果结果符合预期(高分赢低分),分数变动就小一些。

经过大量“比赛”后,表现好的模型分数自然就高了,形成了我们看到的排行榜。Chatbot Arena 最初就采用了这种经典的在线 ELO 系统。这种方法的好处是可扩展性强,能处理大量模型;而且增量友好,新模型加入后,通过少量对战就能快速获得初始排名。

在线 ELO 的“小烦恼”:为什么需要进化?

经典的在线 ELO 系统非常适合追踪那些技能水平会动态变化的“玩家”,比如不断学习进步的棋手。它会更看重最近的比赛结果

然而,在 LLM 排名这个场景下,情况有些不同:

  1. 模型是相对静态的: 大部分参与评测的 LLM,其模型权重在评测期间是固定的,性能不会像人类选手那样“忽高忽低”或“持续进步”。
  2. “最近比赛”的偏见: 在线 ELO 系统对近期比赛结果的侧重,可能会导致排名因为比赛顺序的改变而产生较大波动。如果把比赛记录倒过来重新计算 ELO 分数,模型的排名可能会发生显著变化。这对于力求稳定反映模型综合实力的排行榜来说,显然不是最理想的。
  3. 数据全局性的缺失: 在线 ELO 是一场接一场地更新分数,而 Chatbot Arena 拥有所有历史对战的完整数据。如果能一次性利用所有数据进行计算,无疑能得到更稳健的评估。

新宠儿登场:Bradley-Terry 模型

为了解决在线 ELO 系统的这些局限性,Chatbot Arena 决定转向一种新的排名算法——Bradley-Terry (BT) 模型

BT 模型同样是基于成对比较来推断相对实力的,但它有一个核心区别:它假设每个“选手”(LLM)的真实水平是固定不变的,比赛的顺序不影响最终的实力评估。

你可以把 BT 模型理解为一种最大似然估计 (MLE)。简单来说,它会去找到一组最能解释所有已发生的“比赛”结果的模型实力评分。它不再像在线 ELO 那样一场一场地更新,而是着眼于全局数据,找到一个“最优解”。

为什么 Bradley-Terry 模型更适合 Chatbot Arena?

  1. 更稳定、更精确: 由于 BT 模型会利用所有历史投票数据进行全局计算,并且不偏重于近期比赛,因此它能提供更稳定的评分和更精确的置信区间。这意味着我们看到的排名更能代表模型在大量用户偏好下的综合表现,偶然性更小。
  2. 符合 LLM 特性: 对于性能相对固定的 LLM 来说,BT 模型的“静态实力”假设更为贴切。
  3. 更好地处理历史数据: Chatbot Arena 积累了海量的用户投票数据。BT 模型能够充分利用这些宝贵数据,进行更全面的评估。

从在线 ELO 切换到 BT 模型后,虽然模型的平均评分和整体排名变化不大,但通过 BT 模型计算得到的置信区间能更好地反映模型性能估计的方差。新加入、投票较少的模型,其置信区间会更宽,这更符合统计学上的直观感受。

总结:追求更公平、更准确的 AI 标尺

从在线 ELO 系统到 Bradley-Terry 模型,Chatbot Arena 的排名算法升级,体现了其对评估方法严谨性和准确性的不懈追求。

对于我们普通用户和 AI 开发者而言,这意味着 Chatbot Arena 排行榜将更加稳定可靠,能更真实地反映当前各大语言模型的相对强弱。这无疑为我们选择和评判 LLM 提供了一个更值得信赖的参考基准。

欢迎关注+点赞+推荐+转发