苹果公司为边缘应用优化 LLM

苹果公司正在应对有效管理超过现有动态随机存取存储器 (DRAM) 容量的大型语言模型 (LLM) 这一挑战。

苹果公司为边缘应用优化 LLM

Apple 最近发布了一篇题为 “闪存中的 LLM:有限内存下的高效大型语言模型推理 “的论文,介绍了一种突破性的方法,使大型语言模型 (LLM) 能够在超过 DRAM 容量的设备上运行。这项创新包括将模型参数存储在闪存中,并在需要时有选择地将其转移到 DRAM 中。该模型是优化两个关键方面的蓝图:最大限度地减少闪存中的数据传输量,以及以更大更有内聚力的单元读取数据。

苹果公司在闪存框架内采用的方法包括两项关键技术。第一种技术被称为 “窗口技术”,它通过重复使用先前激活的神经元,战略性地减少了数据传输。第二种技术被称为 “行列捆绑”,它通过增强从闪存读取数据块的大小,充分利用了闪存的顺序数据访问优势。总之,这些技术使 LLM 能够在可用 DRAM 容量有限的设备上高效运行。

设备上语言模型的进步

高效模型部署

研究人员已经设计出一些方法,可使可用 DRAM 容量两倍的模型高效运行。这些方法的推理速度明显提高了 4-5 倍和 20-25 倍,分别超过了 CPU 和 GPU 上的传统加载技术。

苹果的生成式人工智能集成

苹果即将发布的 iOS 18 旨在利用生成式人工智能来增强 Siri 和信息功能。整合后,这些应用程序将能提供更准确的回应,并协助自动完成句子。苹果正在探索将这项技术扩展到其他应用程序,如 Apple Music、Pages、Keynote 和 Xcode,有望增强用户体验。

三星的高斯集成

三星推出的 Gauss 是其专有的设备 LLM,这是一项关键的发展。Gauss 计划于 2024 年初集成到 Galaxy S24 智能手机的功能中,它将丰富三星智能手机、笔记本电脑和平板电脑等各种设备的生态系统。

谷歌的 Gemini Nano

谷歌在设备龙8国际娱乐城方面的尝试包括 Gemini Nano,它准备在即将推出的谷歌 Pixel 8 系列中首次亮相。其功能,如录音应用中的摘要和 Gboard 中的智能回复,标志着谷歌致力于在其生态系统中增强用户互动。

常见问题

1. 在 DRAM 容量有限的情况下,Apple 管理大型语言模型 (LLM) 的方法有何意义?

Apple 的方法是将模型参数存储在闪存中,并在需要时有选择性地将其传输到 DRAM。这种方法最大限度地减少了闪存中的数据传输,并优化了以更大的内聚单元进行的数据读取,从而在面临 DRAM 限制的设备上实现了高效的 LLM 运行。

2. Apple 创新的闪存信息框架如何提高 LLM 运行效率?

Apple 利用 “窗口 “技术重复使用激活的神经元,从而减少数据传输,并利用 “行列捆绑 “技术从闪存中读取较大的数据块。这些技术共同提高了 LLM 在内存受限设备上的运行效率。

3.通过高效的模型部署,设备上的语言模型取得了哪些进步?

研究人员开发了一些方法,使两倍于可用 DRAM 大小的模型能够高效运行,从而显着提高推理速度。与 CPU 和 GPU 上的传统加载技术相比,这些方法提供了显着的性能改进。

4. Apple 计划如何将 Generative AI 集成到 iOS 18 更新中?

在 iOS 18 中,苹果旨在使用 Generative AI 来增强 Siri 和 Messages,提高响应准确性并协助句子自动完成。Apple 计划将该技术扩展到 Apple Music、Pages、Keynote 和 Xcode 等其他应用程序,以增强用户体验。

版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。

(0)

相关推荐

发表回复

登录后才能评论