NVIDIA 与谷歌合作利用 TensorRT-LLM 优化 Gemma 模型

NVIDIA® 与谷歌携手推出 Gemma，这是一套源自 Gemini 技术的优化开放模型。Gemma 由 TensorRT-LLM 提供支持，具有高吞吐量和尖端性能。它兼容所有 NVIDIA 人工智能平台，从数据中心到本地个人电脑均可访问。

Gemma 2B 和 Gemma 7B 模型由 Google DeepMind 开发，以效率为优先考虑。通过 TensorRT-LLM 加速，Gemma 可确保无缝部署和优化。TensorRT-LLM 简化的 Python API 简化了量化和内核压缩，增强了 Python 开发人员的定制选项。

Gemma 模型的词汇量为 256K，支持高达 8K 的上下文长度，因此优先考虑安全性。广泛的数据整理和 PII 过滤确保了负责任的人工智能实践。Gemma 对超过六万亿个令牌进行了训练，使开发人员能够自信地构建和部署高级人工智能应用。

使用 TensorRT-LLM 加速 Gemma 模型

TensorRT-LLM 在提高 Gemma 模型速度方面发挥着关键作用。凭借一系列优化和内核，TensorRT-LLM 显着提高了推理吞吐量和延迟。值得注意的是，三个不同的功能——FP8、XQA 和 INT4 激活感知权重量化 (INT4 AWQ)——有助于提高 Gemma 的性能。

FP8 增强：

FP8 代表了深度学习应用的自然演变，超越了现代处理器中常见的 16 位格式。它有助于提高矩阵乘法和内存传输的吞吐量，而不会影响准确性。FP8 对小批量和大批量都有好处，特别是在内存带宽有限的模型中。

KV 缓存的 FP8 量化：

TensorRT-LLM 为 KV 缓存引入了 FP8 量化，解决了大批量或长上下文长度带来的独特挑战。此优化使运行批量大小增大 2-3 倍，从而提高性能。

XQA 内核：

XQA 内核支持组查询注意力和多查询注意力，在生成阶段和波束搜索期间提供优化。NVIDIA GPU 优化了数据加载和转换时间，确保在相同的延迟预算内提高吞吐量。

INT4 AWQ：

INT4 AWQ 通过小批量工作负载提供卓越的性能，减少网络内存占用，并显着增强内存带宽有限的应用程序的性能。它利用低位仅权重量化方法来最小化量化误差并保护显着权重。

使用 TensorRT-LLM 实现实时性能

TensorRT-LLM 与 NVIDIA H200 Tensor Core GPU 相结合，在 Gemma 2B 和 Gemma 7B 模型上展示了卓越的实时性能。单个 H200 GPU 在 Gemma 2B 型号上每秒可实现超过 79,000 个令牌，在较大的 Gemma 7B 型号上可实现每秒近 19,000 个令牌。

使用 TensorRT-LLM 实现可扩展性

仅在一个 H200 GPU 上部署带有 TensorRT-LLM 的 Gemma 2B 模型即可为超过 3,000 个并发用户提供服务，并且所有用户都具有实时延迟。这种可扩展性强调了 TensorRT-LLM 在提供高性能AI 解决方案方面的效率和有效性。

开始使用 Gemma

直接通过 NVIDIA AI 游乐场上的浏览器体验 Gemma。很快，您还可以在 NVIDIA Chat with RTX 演示应用程序上试用 Gemma。

NVIDIA 优化的旅程

探索针对 Gemma 小语言模型的 NVIDIA 优化支持。在 NGC 上找到几个 TensorRT-LLM 优化的 Gemma-2B 和 Gemma-7B 模型检查点。其中包括适合在 NVIDIA GPU 上运行的预训练和指令调整版本，包括消费级 RTX 系统。

优化的 FP8 量化版本

即将推出，体验 Hugging Face 上 Optimum-NVIDIA 库中模型的 TensorRT-LLM 优化 FP8 量化版本。只需一行代码即可集成快速 LLM 推理。

使用 NVIDIA NeMo 框架进行部署

开发人员可以使用 NVIDIA NeMo 框架在生产环境中自定义和部署 Gemma。NeMo 支持流行的定制技术，例如使用 LoRA 和 RLHF 进行监督微调和参数高效微调。它还为训练提供 3D 并行性。查看笔记本以开始使用 Gemma 和 NeMo 进行编码。

关于 Gemma 和 TensorRT-LLM 的常见问题

1. Gemma 是什么？它与以前的型号有何不同？

Gemma 是 Google 创建的新优化的开放模型系列，利用了 Gemini 模型的研究和技术。与之前的迭代相比，它提供了增强的性能和效率。

2. TensorRT-LLM 在加速 Gemma 模型方面发挥什么作用？

TensorRT-LLM 是一个用于优化推理性能的开源库。它通过各种优化和内核显着提高了 Gemma 模型的速度和效率。

3. Gemma 如何支持实时性能，其含义是什么？

Gemma 由 TensorRT-LLM 和 NVIDIA H200 Tensor Core GPU 加速，在 Gemma 2B 模型上每秒实现超过 79,000 个令牌。这种实时性能水平可以为各种应用程序提供高吞吐量推理。

4. 开发者可以在哪里访问使用 TensorRT-LLM 优化的 Gemma 模型？

开发人员可以在 NVIDIA NGC 平台上找到优化的 Gemma-2B 和 Gemma-7B 模型检查点，包括预训练和指令调整的版本。这些型号与 NVIDIA GPU 兼容，包括消费级 RTX 系统。

5. TensorRT-LLM优化的FP8量化版Gemma的意义是什么？

TensorRT-LLM 优化的 Gemma FP8 量化版本提供了增强的速度和效率，可以通过减少内存占用实现更快的推理。它将在 Hugging Face 的 Optimum-NVIDIA 库中提供。

6. 开发者如何在生产环境中定制和部署Gemma模型？

开发人员可以利用 NVIDIA NeMo 框架来定制和部署 Gemma 模型。NeMo 支持各种定制技术，包括监督微调、LoRA 参数高效微调以及人类反馈强化学习 (RLHF)。

7. Gemma 型号集成了哪些安全功能？

Gemma 模型通过广泛的数据管理、PII 过滤和根据人类反馈进行强化学习来优先考虑安全性。这些措施确保负责任的人工智能实践并保护敏感信息。

8. Gemma如何为AI应用的进步做出贡献？

Gemma 经过超过 6 万亿个代币的训练，使开发人员能够自信地构建和部署高性能、负责任且先进的 AI 应用程序。其效率和可扩展性使其成为各个行业的宝贵工具。

来源：https://cioinfluence.com/it-and-devops/nvidia-and-google-collaborate-to-optimize-gemma-models-with-tensorrt-llm/

NVIDIA 与谷歌合作利用 TensorRT-LLM 优化 Gemma 模型

使用 TensorRT-LLM 加速 Gemma 模型

使用 TensorRT-LLM 实现实时性能

使用 TensorRT-LLM 实现可扩展性

开始使用 Gemma

关于 Gemma 和 TensorRT-LLM 的常见问题

相关推荐

Google AI 推出 Gemma-APS：用于文本到命题分割的 Gemma 模型集合

如何借助 Keras 3 轻松上手 Gemma 模型

发表回复