Sakana AI推出Doc-to-LoRa和Text-to-LoRa:能够即时理解长上下文并通过零样本自然语言调整LLM的超网络

目前,大型语言模型 (LLM) 的定制面临着一个重要的工程权衡:一方面是上下文学习 (ICL)的灵活性,另一方面是上下文蒸馏 (CD)监督微调 (SFT)的效率。总部位于东京的 Sakana AI 提出了一种通过成本摊销来规避这些限制的新方法。在他们最近发表的两篇论文中,他们引入了Text-to-LoRA (T2L)Doc-to-LoRA (D2L),这两种轻量级超网络通过元学习,在单次前向传播中生成低秩自适应 (LoRA)矩阵。

Sakana AI推出Doc-to-LoRa和Text-to-LoRa:能够即时理解长上下文并通过零样本自然语言调整LLM的超网络

工程瓶颈:延迟与内存

对于 AI 开发者而言,标准LLM自适应的主要限制是计算开销:

  • 上下文学习 (ICL):虽然方便,但 ICL 存在二次注意力成本和线性KV 缓存增长的问题,随着提示时间的延长,这会增加延迟和内存消耗。
  • 上下文蒸馏(CD): CD 将信息转化为模型参数,但由于训练成本高、更新延迟大,逐提示​​蒸馏往往不切实际。
  • SFT:需要特定任务的数据集,如果信息发生变化,则需要昂贵的重新训练。

Sakana AI 的方法通过一次性支付元训练费用来分摊这些成本。训练完成后,超网络可以立即将基础 LLM 模型适应新的任务或文档,而无需额外的反向传播。

Sakana AI推出Doc-to-LoRa和Text-to-LoRa:能够即时理解长上下文并通过零样本自然语言调整LLM的超网络

Text-to-LoRA (T2L):通过自然语言进行自适应

Text-to-LoRA (T2L)是一个超网络,旨在仅使用任务的自然语言描述即可动态调整语言学习模型 (LLM)。

架构与训练

T2L 使用任务编码器从文本描述中提取向量表示。该表示与可学习的模块和层嵌入相结合,通过一系列 MLP 模块进行处理,从而生成目标 LLM 的AB低秩矩阵。

该系统可通过两种主要方案进行训练:

  1. LoRA 重构:将现有的、预训练的 LoRA 适配器提炼到超网络中。
  2. 监督式微调(SFT):在多任务数据集上端到端地优化超网络。

研究表明,经过SFT训练的T2L模型能够更好地泛化到未见过的任务,因为它能够隐式地学习在权重空间中对相关功能进行聚类。在基准测试中,T2L在GSM8KArc-Challenge等任务上的表现与特定任务的适配器相当甚至更优,同时与3-shot ICL相比,其自适应成本降低了4倍以上。

Doc-to-LoRA (D2L):内化上下文

Doc-to-LoRa (D2L)将这一概念扩展到文档内部化。它使语言学习模型 (LLM) 能够在不重新使用原始上下文的情况下回答关于同一文档的后续查询,从而有效地将该文档从活动上下文窗口中移除。

基于感知者的设计

D2L 采用感知器风格的交叉注意力架构。它将来自基础 LLM 的可变长度 token 激活 ( Z ) 映射到固定形状的 LoRA 适配器。

为了处理长度超过训练集长度的文档,D2L 采用了分块机制。较长的上下文被分割成K 个连续的块,每个块独立处理以生成相应的适配器。然后,这些适配器沿着秩维度连接起来,使得 D2L 能够在不改变超网络输出形状的情况下,为更长的输入生成更高秩的 LoRA。

性能和内存效率

大海捞针 (NIAH)检索任务中,D2L 在上下文长度超过基础模型原生窗口 4 倍以上的情况下,仍保持了近乎完美的零样本准确率。

  • 内存占用:对于一个包含 128K 个词元的文档,基础模型需要超过12 GB的显存用于键值缓存。而内部化的 D2L 模型处理同一文档仅需不到50 MB 的内存。
  • 更新延迟: D2L 在亚秒级(<1 秒)内完成信息内部化,而传统的 CD 可能需要 40 到 100 秒。

跨模态转移

D2L研究的一项重要发现是能够实现视觉信息的零样本内化。通过使用视觉语言模型(VLM)作为上下文编码器,D2L将视觉激活映射到纯文本语言模型(LLM)的参数中。这使得该文本模型能够在初始训练过程中从未接触过图像数据的情况下,以75.03%的准确率对Imagenette数据集中的图像进行分类。

要点总结

  • 通过超网络进行摊销定制:两种方法都使用轻量级超网络来元学习适应过程,只需支付一次性元训练成本,即可为新任务或文档即时、亚秒级地生成 LoRa 适配器。
  • 显著降低内存和延迟: Doc-to-LoRA 将上下文内部化为参数,将长文档的 KV 缓存内存消耗从超过 12 GB 降低到不到 50 MB,并将更新延迟从几分钟降低到不到一秒。
  • 有效的长上下文泛化: Doc-to-LoRA 使用基于感知器的架构和分块机制,能够以接近完美的准确度将序列长度超过基本 LLM 原生上下文窗口 4 倍的信息内化。
  • 零样本任务适应:文本到 LoRA 可以仅根据自然语言描述为完全未见过的任务生成专门的 LoRA 适配器,其性能与特定任务的“预言机”适配器相当甚至更优。
  • 跨模态知识迁移: Doc-to-LoRA 架构能够将视觉语言模型 (VLM) 中的视觉信息零样本内化到纯文本 LLM 中,从而使后者能够在主要训练期间未见过像素数据的情况下,以高精度对图像进行分类。

参考资料:
论文地址:https://arxiv.org/pdf/2602.15902
代码:https://github.com/SakanaAI/Doc-to-LoRA

本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/jishu/65035.html

(0)

相关推荐

发表回复

登录后才能评论