利用迭代细化，Loop-Residual 神经网络显示出与更大的 GPT-2 变体相当的结果

AIGC • 2025年4月17日上午10:29 • 技术文章

Transformer 架构彻底改变了自然语言处理，使 GPT 等模型能够高效地预测序列中的下一个 token。然而，这些模型存在一个根本性的局限性，即需要对所有之前的 token 进行一次性投影来预测下一个 token，这限制了它们的迭代改进能力。无论预测 token 的复杂性或模糊性如何，Transformer 都会持续施加计算工作，缺乏重新考虑或改进预测的机制。包括 Transformer 在内的传统神经网络在单次前向传递中将输入序列映射到预测结果，并通过多层处理输入以改进内部表征。

通用 Transformer 引入了 Transformer 层的循环应用，通过迭代细化表征来捕捉短期和长期依赖关系。然而，实验仅限于较小的模型和数据集，而非像 GPT-2 这样的大规模语言模型。自适应计算时间模型允许动态确定每个输入的计算步骤，但主要应用于简单的 RNN 架构，并在不使用 Transformer 架构或大规模预训练的情况下在小规模任务上进行测试。深度自适应 Transformer 根据输入调整网络深度，通过选择每个输入序列应用的层数来实现动态推理。然而，这些方法缺乏更高级架构中常见的预测残差设计。

香港大学的研究人员提出了一种新颖的 Loop-Residual 神经网络 (Loop-Residual Neural Network)，该网络会多次重访输入，并通过在模型子集上进行迭代循环来优化预测。它采用一种带有残差预测的新型循环架构，从而提升了 Transformer 的性能，并延长了推理时间。该方法无需额外的训练数据，即可有效应用于大型神经网络，从而扩展了模型的逼近能力。通过将标准 GPT-2 版本与循环残差模型进行比较，实验证明了其有效性。值得注意的是，他们的 GPT-2-81M 模型在 OpenWebText 数据集上的验证损失为 3.11，与 GPT-2-124M 模型的 3.12 损失相当。

利用迭代细化，Loop-Residual 神经网络显示出与更大的 GPT-2 变体相当的结果

Loop-Residual 包含两个实验。首先，将具有 81M 参数的 Loop-Residual GPT-2 模型 (GPT2-81M) 与具有 124M 参数的 GPT-2 模型 (GPT2-124M) 进行比较。GPT2-124M 由 12 个 Transformer 层组成，而 Loop-Residual GPT2-81M 在 6 个 Transformer 层上使用 6 个循环。第二个实验将具有 45M 参数的 Loop-Residual GPT-2 模型 (GPT2-45M) 与相同大小的 Lite GPT-2 模型 (GPT2-45M-Lite) 进行比较。GPT2-45M-Lite 具有单个 Transformer 块层，用于单次预测，而 Loop-Residual 版本在单个 Transformer 块上循环两次。两个实验都使用了 OpenWebText 数据集，测量的训练历元时间为：GPT2-45M-Lite 150 毫秒，Loop-Residual GPT2-45M 177 毫秒，GPT2-81M 1,377 毫秒。

在第一个实验中，Loop-Residual GPT2-81M 模型在 OpenWebText 数据集上的验证损失为 3.11，与 GPT2-124M 模型的 3.12 损失相当。这一结果意义重大，因为与 GPT2-124M 模型相比，Loop-Residual 模型使用的参数减少了 35%，且唯一层数减少了一半。这表明，通过 loop-residual 机制进行迭代改进可以增强模型的逼近能力。在第二个实验中，Loop-Residual 模型的验证损失为 3.67（之前为 3.98），训练损失为 3.65（之前为 3.96）。通过在单个 Transformer 块上循环两次，该模型有效地模拟了更深的网络，从而在不增加模型大小的情况下，相比单遍基线模型实现了显著的性能提升。

总而言之，研究人员提出了环路残差神经网络 (Loop-Residual Neural Network)，它通过迭代优化利用更长的推理时间，使较小的神经网络模型能够在低端设备上取得更佳效果。与传统的单遍模型相比，该方法能够更有效地捕捉复杂的模式和依赖关系。实验表明，环路残差模型的性能优于同等规模的基线模型，并且与参数更少的大型模型的性能相当。未来的发展方向包括神经网络架构的新可能性，尤其是在资源受限的设备上，需要进行更深入的计算推理的任务。

论文地址：https://arxiv.org/abs/2409.14199v1

本文来自作者投稿，版权归原作者所有。如需转载，请注明出处：https://www.nxrte.com/jishu/57482.html