利用迭代细化,Loop-Residual 神经网络显示出与更大的 GPT-2 变体相当的结果

Transformer 架构彻底改变了自然语言处理,使 GPT 等模型能够高效地预测序列中的下一个 token。然而,这些模型存在一个根本性的局限性,即需要对所有之前的 token 进行一次性投影来预测下一个 token,这限制了它们的迭代改进能力。无论预测 token 的复杂性或模糊性如何,Transformer 都会持续施加计算工作,缺乏重新考虑或改进预测的机制。包括 Transformer 在内的传统神经网络在单次前向传递中将输入序列映射到预测结果,并通过多层处理输入以改进内部表征。

通用 Transformer 引入了 Transformer 层的循环应用,通过迭代细化表征来捕捉短期和长期依赖关系。然而,实验仅限于较小的模型和数据集,而非像 GPT-2 这样的大规模语言模型。自适应计算时间模型允许动态确定每个输入的计算步骤,但主要应用于简单的 RNN 架构,并在不使用 Transformer 架构或大规模预训练的情况下在小规模任务上进行测试。深度自适应 Transformer 根据输入调整网络深度,通过选择每个输入序列应用的层数来实现动态推理。然而,这些方法缺乏更高级架构中常见的预测残差设计。

香港大学的研究人员提出了一种新颖的 Loop-Residual 神经网络 (Loop-Residual Neural Network),该网络会多次重访输入,并通过在模型子集上进行迭代循环来优化预测。它采用一种带有残差预测的新型循环架构,从而提升了 Transformer 的性能,并延长了推理时间。该方法无需额外的训练数据,即可有效应用于大型神经网络,从而扩展了模型的逼近能力。通过将标准 GPT-2 版本与循环残差模型进行比较,实验证明了其有效性。值得注意的是,他们的 GPT-2-81M 模型在 OpenWebText 数据集上的验证损失为 3.11,与 GPT-2-124M 模型的 3.12 损失相当。

利用迭代细化,Loop-Residual 神经网络显示出与更大的 GPT-2 变体相当的结果

Loop-Residual 包含两个实验。首先,将具有 81M 参数的 Loop-Residual GPT-2 模型 (GPT2-81M) 与具有 124M 参数的 GPT-2 模型 (GPT2-124M) 进行比较。GPT2-124M 由 12 个 Transformer 层组成,而 Loop-Residual GPT2-81M 在 6 个 Transformer 层上使用 6 个循环。第二个实验将具有 45M 参数的 Loop-Residual GPT-2 模型 (GPT2-45M) 与相同大小的 Lite GPT-2 模型 (GPT2-45M-Lite) 进行比较。GPT2-45M-Lite 具有单个 Transformer 块层,用于单次预测,而 Loop-Residual 版本在单个 Transformer 块上循环两次。两个实验都使用了 OpenWebText 数据集,测量的训练历元时间为:GPT2-45M-Lite 150 毫秒,Loop-Residual GPT2-45M 177 毫秒,GPT2-81M 1,377 毫秒。

在第一个实验中,Loop-Residual GPT2-81M 模型在 OpenWebText 数据集上的验证损失为 3.11,与 GPT2-124M 模型的 3.12 损失相当。这一结果意义重大,因为与 GPT2-124M 模型相比,Loop-Residual 模型使用的参数减少了 35%,且唯一层数减少了一半。这表明,通过 loop-residual 机制进行迭代改进可以增强模型的逼近能力。在第二个实验中,Loop-Residual 模型的验证损失为 3.67(之前为 3.98),训练损失为 3.65(之前为 3.96)。通过在单个 Transformer 块上循环两次,该模型有效地模拟了更深的网络,从而在不增加模型大小的情况下,相比单遍基线模型实现了显著的性能提升。

总而言之,研究人员提出了环路残差神经网络 (Loop-Residual Neural Network),它通过迭代优化利用更长的推理时间,使较小的神经网络模型能够在低端设备上取得更佳效果。与传统的单遍模型相比,该方法能够更有效地捕捉复杂的模式和依赖关系。实验表明,环路残差模型的性能优于同等规模的基线模型,并且与参数更少的大型模型的性能相当。未来的发展方向包括神经网络架构的新可能性,尤其是在资源受限的设备上,需要进行更深入的计算推理的任务。

论文地址:https://arxiv.org/abs/2409.14199v1

本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/jishu/57482.html

(0)

相关推荐

发表回复

登录后才能评论