GPZ:用于大规模粒子数据的新一代 GPU 加速有损压缩器

基于粒子的模拟和点云应用正在推动科学和商业数据集的规模和复杂性大幅扩张,其数量通常会跃升至数十亿甚至数万亿个离散点。如何在不影响现代 GPU 性能的情况下高效地减少、存储和分析这些数据,是宇宙学、地质学、分子动力学和 3D 成像等领域面临的重大挑战之一。

最近,来自佛罗里达州立大学、爱荷华大学、阿贡国家实验室、芝加哥大学和其他几家机构的研究团队推出了GPZ,这是一款针对 GPU 优化、误差有界的有损压缩器,它显著提高了粒子数据的吞吐量、压缩比和数据保真度,其性能远超五种最先进的替代方案。

为什么要压缩粒子数据?为什么这么难?

与结构化网格不同,粒子(或点云)数据将系统表示为多维空间中离散元素的不规则集合。这种格式对于捕捉复杂的物理现象至关重要,但它的空间和时间相干性较低,并且几乎没有冗余,这使得它成为经典无损或通用有损压缩器的噩梦。

考虑:

  • Summit 超级计算机使用 Nvidia V100 GPU 生成了 70 TB 的单个宇宙模拟快照。
  • 美国地质调查局 3D 高程计划的美国地形点云存储空间超过 200 TB。

传统方法(例如降采样或即时处理)会丢弃高达 90% 的原始数据,或因存储空间不足而无法实现可重复性。此外,通用的网格压缩器会利用粒子数据中根本不存在的相关性,导致比例不佳和 GPU 吞吐量极低。

GPZ:架构与创新

GPZ 配备四级并行 GPU 管道,专为粒子数据的特殊特性和现代大规模并行硬件的严苛要求而设计。

GPZ:用于大规模粒子数据的新一代 GPU 加速有损压缩器

管道阶段:

  1. 空间量化
    • 粒子的浮点位置被映射到整数段 ID 和偏移量,尊重用户指定的错误界限,同时利用快速 FP32 操作实现最大的 GPU 算术吞吐量。
    • 段大小经过调整,以实现最佳 GPU 占用率。
  2. 空间排序
    • 在每个块(映射到 CUDA 扭曲)内,粒子按其段 ID 排序,以增强后续无损编码 – 使用扭曲级操作来避免昂贵的同步。
    • 块级排序平衡压缩率和共享内存占用,以实现最佳并行性。
  3. 无损编码
    • 创新的并行运行长度和增量编码从排序的段 ID 和量化偏移量中去除冗余。
    • 位平面编码消除了零位,所有步骤都针对 GPU 内存访问模式进行了大幅优化。
  4. 压缩
    • 使用三步设备级策略将压缩块高效地组装成连续的输出,该策略可大幅减少同步开销并最大化内存吞吐量(RTX 4090 上为 809 GB/s,接近理论峰值)。

解压缩是相反的操作——在错误范围内提取、解码和重建位置,从而实现高保真事后分析。

GPZ:用于大规模粒子数据的新一代 GPU 加速有损压缩器

硬件感知性能优化

GPZ 通过一系列以硬件为中心的优化脱颖而出:

  • 内存合并:读取和写入都仔细对齐到 4 字节边界,从而最大化 DRAM 带宽(比跨步访问提高了 1.6 倍)。
  • 寄存器和共享内存管理:算法旨在保持较高的占用率。精度尽可能降低至 FP32,并避免过度使用寄存器以防止溢出。
  • 计算调度:每个块一个扭曲映射、明确使用 CUDA 内部函数(如 FMA 操作)以及在有益的情况下展开循环。
  • 除法/模数消除:尽可能用预先计算的倒数和按位掩码代替缓慢的除法/模数运算。

基准测试:GPZ 与最新技术

GPZ 在六个真实世界数据集(来自宇宙学、地质学、等离子体物理学和分子动力学)上进行了评估,涵盖三种 GPU 架构:

  • Consumer:RTX 4090,
  • 数据中心:H100 SXM,
  • 优势:Nvidia L4。

基线包括:

  • cuSZp2
  • PFPL
  • FZ-GPU
  • cuSZ
  • cuSZ-i

大多数针对通用科学网格进行优化的工具在处理超过 2 GB 的粒子数据集时会失败或出现严重的性能/质量下降;而 GPZ 始终保持着强劲势头。

结果:

  • 速度: GPZ 的压缩吞吐量比排名第二的竞品高出 8 倍。平均吞吐量分别达到 169 GB/s (L4)、598 GB/s (RTX 4090) 和 616 GB/s (H100)。解压缩吞吐量甚至更高。
  • 压缩比: GPZ 的表现始终优于所有基准,在高难度环境下压缩比高达 600%。即使亚军略胜一筹,GPZ 也能保持 3 到 6 倍的速度优势。
  • 数据质量:率失真图证实了科学特征的卓越保存(在较低比特率下具有更高的 PSNR),并且目视检查(特别是在 10 倍放大视图下)显示 GPZ 的重建与原始图像几乎没有区别,而其他压缩则产生了可见的伪影。

关键要点和启示

GPZ 为现代 GPU 上的实时大规模粒子数据缩减树立了新的黄金标准。其设计克服了通用压缩器的根本局限性,并提供了量身定制的解决方案,充分利用了 GPU 的并行性和精准的调优能力。

对于处理大量科学数据集的研究人员和从业人员,GPZ 提供:

  • 适用于现场和事后分析的稳健误差有界压缩
  • 消费者和 HPC 级硬件之间的实际吞吐量和比率
  • 近乎完美的重建,用于下游分析、可视化和建模任务

随着数据规模不断扩大,像 GPZ 这样的解决方案将越来越多地定义面向 GPU 的科学计算和大规模数据管理的下一个时代。

论文地址:https://arxiv.org/abs/2508.10305

本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/jishu/61016.html

(0)

相关推荐

发表回复

登录后才能评论