苹果公司为边缘应用优化 LLM

苹果公司正在应对有效管理超过现有动态随机存取存储器 (DRAM) 容量的大型语言模型 (LLM) 这一挑战。

Apple 最近发布了一篇题为 “闪存中的 LLM：有限内存下的高效大型语言模型推理 “的论文，介绍了一种突破性的方法，使大型语言模型 (LLM) 能够在超过 DRAM 容量的设备上运行。这项创新包括将模型参数存储在闪存中，并在需要时有选择地将其转移到 DRAM 中。该模型是优化两个关键方面的蓝图：最大限度地减少闪存中的数据传输量，以及以更大更有内聚力的单元读取数据。

苹果公司在闪存框架内采用的方法包括两项关键技术。第一种技术被称为 “窗口技术”，它通过重复使用先前激活的神经元，战略性地减少了数据传输。第二种技术被称为 “行列捆绑”，它通过增强从闪存读取数据块的大小，充分利用了闪存的顺序数据访问优势。总之，这些技术使 LLM 能够在可用 DRAM 容量有限的设备上高效运行。

设备上语言模型的进步

高效模型部署

研究人员已经设计出一些方法，可使可用 DRAM 容量两倍的模型高效运行。这些方法的推理速度明显提高了 4-5 倍和 20-25 倍，分别超过了 CPU 和 GPU 上的传统加载技术。

苹果的生成式人工智能集成

苹果即将发布的 iOS 18 旨在利用生成式人工智能来增强 Siri 和信息功能。整合后，这些应用程序将能提供更准确的回应，并协助自动完成句子。苹果正在探索将这项技术扩展到其他应用程序，如 Apple Music、Pages、Keynote 和 Xcode，有望增强用户体验。

三星的高斯集成

三星推出的 Gauss 是其专有的设备 LLM，这是一项关键的发展。Gauss 计划于 2024 年初集成到 Galaxy S24 智能手机的功能中，它将丰富三星智能手机、笔记本电脑和平板电脑等各种设备的生态系统。

谷歌的 Gemini Nano

谷歌在设备龙8国际娱乐城方面的尝试包括 Gemini Nano，它准备在即将推出的谷歌 Pixel 8 系列中首次亮相。其功能，如录音应用中的摘要和 Gboard 中的智能回复，标志着谷歌致力于在其生态系统中增强用户互动。

常见问题

1. 在 DRAM 容量有限的情况下，Apple 管理大型语言模型 (LLM) 的方法有何意义？

Apple 的方法是将模型参数存储在闪存中，并在需要时有选择性地将其传输到 DRAM。这种方法最大限度地减少了闪存中的数据传输，并优化了以更大的内聚单元进行的数据读取，从而在面临 DRAM 限制的设备上实现了高效的 LLM 运行。

2. Apple 创新的闪存信息框架如何提高 LLM 运行效率？

Apple 利用 “窗口 “技术重复使用激活的神经元，从而减少数据传输，并利用 “行列捆绑 “技术从闪存中读取较大的数据块。这些技术共同提高了 LLM 在内存受限设备上的运行效率。

3.通过高效的模型部署，设备上的语言模型取得了哪些进步？

研究人员开发了一些方法，使两倍于可用 DRAM 大小的模型能够高效运行，从而显着提高推理速度。与 CPU 和 GPU 上的传统加载技术相比，这些方法提供了显着的性能改进。

4. Apple 计划如何将 Generative AI 集成到 iOS 18 更新中？

在 iOS 18 中，苹果旨在使用 Generative AI 来增强 Siri 和 Messages，提高响应准确性并协助句子自动完成。Apple 计划将该技术扩展到 Apple Music、Pages、Keynote 和 Xcode 等其他应用程序，以增强用户体验。

苹果公司为边缘应用优化 LLM

设备上语言模型的进步

常见问题

相关推荐

三大协会联合抖音发布直播行业自律公约 推动各方规范发展

Meta 将利用 AR 智能眼镜数据开发机器人、汽车和医疗保健应用案例

推荐！速览 LiveVideoStackCon 2023 音视频技术大会深圳站议程详解

Riedel 智能音频和混音引擎 (SAME) 希望重新定义广播音频领域

摩尔线程与Reportify联手，加速金融大模型创新应用

医疗保健语音 AI 初创公司 SuperDial 收购 MajorBoost

发表回复

三大协会联合抖音发布直播行业自律公约推动各方规范发展