信号与噪声：解锁可靠的大语言模型 (LLM) 评估，助力更优的AI决策

评估大语言模型（LLM）的成本在科学和经济上都耗资巨大。随着该领域竞相开发更大规模的模型，评估和比较这些模型的方法变得越来越重要，不仅是为了基准分数，更是为了做出明智的开发决策。艾伦人工智能研究所（Ai2）的最新研究提出了一个以两个核心指标为中心的 robust 框架：信号与噪声，以及它们的比值，即信噪比（SNR）。该框架通过提供可操作的洞察，有助于降低语言模型评估中的不确定性并提升可靠性，其有效性已在数百个模型和多样化的基准测试中得到验证。

理解 LLM 评估中的信号和噪声

信号

信号衡量基准区分优劣模型的能力，本质上是量化给定任务中模型得分的分布。信号高意味着模型性能在基准测试中分布广泛，从而更容易对模型进行有意义的排名和比较。信号低的基准测试得分过于接近，使得确定哪个模型真正更优更加困难。

噪声

噪声是指基准测试分数由于训练过程中的随机波动（包括随机初始化、数据顺序以及单次训练运行中检查点间的更改）而产生的差异。高噪声会降低基准测试的可靠性，因为即使使用相同的模型和数据配置，重复实验也会产生不一致的结果。

信噪比（SNR）

Ai2 的核心见解是，基准测试对于模型开发的效用不仅取决于信号或噪声本身，还取决于它们的比率——信噪比。高信噪比的基准测试能够持续提供更可靠的评估结果，并且更适合用于制定可迁移到大规模模型的小规模决策。

信噪比为何对发展决策至关重要

在 LLM 开发中，有两种常见场景需要评估基准来指导关键决策：

决策准确率：训练多个小模型（例如，基于不同的数据方案），并选择最佳模型进行扩展。核心问题是：小规模模型的排名是否适用于更大规模？
缩放定律预测误差：根据小模型拟合缩放定律来预测更大模型的性能。

研究表明，在这些场景下，高信噪比基准测试的可靠性更高。信噪比与决策准确率 (R2=0.626) 密切相关，并且能够预测缩放定律预测误差的可能性 (R2=0.426) 。低信号或高噪声的基准测试会使开发决策更具风险，因为小规模的发现可能无法在生产规模上成立。

信号与噪声：解锁可靠的大语言模型 (LLM) 评估，助力更优的AI决策 — 图片来自*https://allenai.org/blog/signal-noise*

测量信号和噪声

实际定义

信号：对于在相似计算预算下训练的模型群体，以任意两个模型之间的分数最大差异（离散度）来衡量，并由平均分数标准化。
噪声：估计单个模型训练的最后 nnn 个检查点之间的分数相对标准偏差。

组合，SNR = 相对标准偏差（噪声）/ 相对色散（信号）

提供了一种廉价可靠的方法来表征评估鲁棒性。重要的是，检查点间的噪声与初始化和数据顺序噪声等传统噪声源高度相关，使其成为整体建模噪声的实用替代方法。

干预措施：如何改进评估基准

Ai2 提出并测试了几种实用干预措施来提高基准 SNR，从而帮助在 LLM 开发过程中做出更好的决策。

1. 根据信噪比筛选子任务

多任务基准测试（例如 MMLU、AutoBencher）通常是多个子任务的平均值。研究表明，选择高信噪比 (SNR) 子任务的子集（而不是使用所有可用任务或更大的样本量）可以显著提高信噪比 (SNR) 和决策准确率。例如，相比使用全部子集，仅使用 57 个 MMLU 子任务中排名前 16 个子任务可以获得更高的信噪比 (SNR) 和更好的预测效果。这种方法还有助于剔除标记误差较高的子任务，因为低信噪比子任务通常意味着数据质量较差。

2. 平均检查点得分

与其仅仅依赖最终的训练检查点，不如对多个最终检查点的得分进行平均（或在训练期间使用指数移动平均线），这样可以减少瞬态噪声的影响。这种方法可以持续提高决策准确率，并降低缩放定律预测误差。例如，在大多数基准测试中，平均决策准确率提高了 2.4%，预测误差也降低了。

3. 使用连续指标，例如每字节位数（BPB）

准确率等分类指标并未充分利用 LLM 输出的连续性。测量每字节比特数（与困惑度相关的连续指标）可显著提高信噪比 (SNR)，尤其是在数学和代码等生成任务中。从准确率转向 BPB 后，GSM8K 的 SNR 从 1.2 提升至 7.0，MBPP 的 SNR 从 2.0 提升至 41.8，从而显著提升了决策准确率（例如，MBPP 从 68% 提升至 93%，Minerva MATH 从 51% 提升至 90%）。

关键要点

信噪比 (SNR) 作为基准选择工具：选择 LLM 评估的基准时，应以高信噪比为目标。这确保了小规模实验的决策在生产规模上具有预测性。
质量重于数量：更大的基准或更多的数据并不总是更好。基于信噪比 (SNR) 的子任务选择和指标选择可以显著提高评估质量。
早期停止和平滑：在开发过程中，对最终或中间检查点的结果进行平均，以减轻随机噪声并提高可靠性。
连续指标提高可靠性：对于具有挑战性和生成性的任务，连续指标（BPB、困惑度）优于分类指标；这大大提高了 SNR 和结果稳定性。

结论

Ai2 的信号与噪声框架重塑了模型开发者进行 LLM 基准测试和评估的方式。通过从 SNR 的视角关注统计特性，从业者可以降低决策风险，预测缩放规律行为，并为模型开发和部署选择最佳基准。Ai2 的公共数据集包含 465 个开放权重模型的 90 万次评估，进一步增强了这项研究，为社区提供了强大的工具，以推动 LLM 评估科学的进一步发展。

参考资料

https://arxiv.org/abs/2508.13144
https://allenai.org/blog/signal-noise
https://github.com/allenai/signal-and-noise

本文来自作者投稿，版权归原作者所有。如需转载，请注明出处：https://www.nxrte.com/jishu/60890.html