信号与噪声:解锁可靠的大语言模型 (LLM) 评估,助力更优的AI决策

评估大语言模型(LLM)的成本在科学和经济上都耗资巨大。随着该领域竞相开发更大规模的模型,评估和比较这些模型的方法变得越来越重要,不仅是为了基准分数,更是为了做出明智的开发决策。艾伦人工智能研究所(Ai2)的最新研究提出了一个以两个核心指标为中心的 robust 框架:信号与噪声,以及它们的比值,即信噪比(SNR)。该框架通过提供可操作的洞察,有助于降低语言模型评估中的不确定性并提升可靠性,其有效性已在数百个模型和多样化的基准测试中得到验证。

理解 LLM 评估中的信号和噪声

信号

信号衡量基准区分优劣模型的能力,本质上是量化给定任务中模型得分的分布。信号高意味着模型性能在基准测试中分布广泛,从而更容易对模型进行有意义的排名和比较。信号低的基准测试得分过于接近,使得确定哪个模型真正更优更加困难。

噪声是指基准测试分数由于训练过程中的随机波动(包括随机初始化、数据顺序以及单次训练运行中检查点间的更改)而产生的差异。高噪声会降低基准测试的可靠性,因为即使使用相同的模型和数据配置,重复实验也会产生不一致的结果。

信噪比(SNR)

Ai2 的核心见解是,基准测试对于模型开发的效用不仅取决于信号或噪声本身,还取决于它们的比率——信噪比。高信噪比的基准测试能够持续提供更可靠的评估结果,并且更适合用于制定可迁移到大规模模型的小规模决策。

信噪比为何对发展决策至关重要

在 LLM 开发中,有两种常见场景需要评估基准来指导关键决策:

  • 决策准确率:训练多个小模型(例如,基于不同的数据方案),并选择最佳模型进行扩展。核心问题是:小规模模型的排名是否适用于更大规模?
  • 缩放定律预测误差:根据小模型拟合缩放定律来预测更大模型的性能。

研究表明,在这些场景下,高信噪比基准测试的可靠性更高。信噪比与决策准确率 (R2=0.626) 密切相关,并且能够预测缩放定律预测误差的可能性 (R2=0.426) 。低信号或高噪声的基准测试会使开发决策更具风险,因为小规模的发现可能无法在生产规模上成立。

信号与噪声:解锁可靠的大语言模型 (LLM) 评估,助力更优的AI决策
图片来自https://allenai.org/blog/signal-noise

测量信号和噪

实际定义

  • 信号:对于在相似计算预算下训练的模型群体,以任意两个模型之间的分数最大差异(离散度)来衡量,并由平均分数标准化。
  • 噪声:估计单个模型训练的最后 nnn 个检查点之间的分数相对标准偏差。

组合,SNR = 相对标准偏差(噪声)/ 相对色散(信号)

提供了一种廉价可靠的方法来表征评估鲁棒性。重要的是,检查点间的噪声与初始化和数据顺序噪声等传统噪声源高度相关,使其成为整体建模噪声的实用替代方法。

信号与噪声:解锁可靠的大语言模型 (LLM) 评估,助力更优的AI决策

干预措施:如何改进评估基准

Ai2 提出并测试了几种实用干预措施来提高基准 SNR,从而帮助在 LLM 开发过程中做出更好的决策。

1. 根据信噪比筛选子任务

多任务基准测试(例如 MMLU、AutoBencher)通常是多个子任务的平均值。研究表明,选择高信噪比 (SNR) 子任务的子集(而不是使用所有可用任务或更大的样本量)可以显著提高信噪比 (SNR) 和决策准确率。例如,相比使用全部子集,仅使用 57 个 MMLU 子任务中排名前 16 个子任务可以获得更高的信噪比 (SNR) 和更好的预测效果。这种方法还有助于剔除标记误差较高的子任务,因为低信噪比子任务通常意味着数据质量较差。

2. 平均检查点得分

与其仅仅依赖最终的训练检查点,不如对多个最终检查点的得分进行平均(或在训练期间使用指数移动平均线),这样可以减少瞬态噪声的影响。这种方法可以持续提高决策准确率,并降低缩放定律预测误差。例如,在大多数基准测试中,平均决策准确率提高了 2.4%,预测误差也降低了。

3. 使用连续指标,例如每字节位数(BPB)

准确率等分类指标并未充分利用 LLM 输出的连续性。测量每字节比特数(与困惑度相关的连续指标)可显著提高信噪比 (SNR),尤其是在数学和代码等生成任务中。从准确率转向 BPB 后,GSM8K 的 SNR 从 1.2 提升至 7.0,MBPP 的 SNR 从 2.0 提升至 41.8,从而显著提升了决策准确率(例如,MBPP 从 68% 提升至 93%,Minerva MATH 从 51% 提升至 90%)。

关键要点

  • 信噪比 (SNR) 作为基准选择工具:选择 LLM 评估的基准时,应以高信噪比为目标。这确保了小规模实验的决策在生产规模上具有预测性。
  • 质量重于数量:更大的基准或更多的数据并不总是更好。基于信噪比 (SNR) 的子任务选择和指标选择可以显著提高评估质量。
  • 早期停止和平滑:在开发过程中,对最终或中间检查点的结果进行平均,以减轻随机噪声并提高可靠性。
  • 连续指标提高可靠性:对于具有挑战性和生成性的任务,连续指标(BPB、困惑度)优于分类指标;这大大提高了 SNR 和结果稳定性。

结论

Ai2 的信号与噪声框架重塑了模型开发者进行 LLM 基准测试和评估的方式。通过从 SNR 的视角关注统计特性,从业者可以降低决策风险,预测缩放规律行为,并为模型开发和部署选择最佳基准。Ai2 的公共数据集包含 465 个开放权重模型的 90 万次评估,进一步增强了这项研究,为社区提供了强大的工具,以推动 LLM 评估科学的进一步发展。

参考资料

https://arxiv.org/abs/2508.13144
https://allenai.org/blog/signal-noise
https://github.com/allenai/signal-and-noise

本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/jishu/60890.html

(0)

相关推荐

发表回复

登录后才能评论