边云系统中面向协同推理的自适应联合配置优化

RTE基础设施 • 来源：中国科学信息科学 • 2024年4月8日下午2:18 • 技术文章

研究意义

随着深度学习、物联网等技术的快速发展，许多深度神经网络模型部署在服务器上用于执行推理任务。在处理很多资源密集型任务时，如果所有推理任务都在云端处理，很难满足超低时延的要求。边缘服务器有限的计算资源通常只能处理一些简单的推理任务，难以满足复杂推理任务的精度要求。当面对密集的多样化推理任务时，传统的仅边缘或仅云解决方案难以实现准确性、时延和能耗之间的权衡，导致巨大的成本浪费。边云协同架构应运而生，但是当前的解决方案难以适应视频任务的不同要求和资源的动态变化，从而影响任务处理的效率和准确性。

本文工作

为了解决上述问题，本文提出了一种基于自适应联合配置优化的边云协同推理框架，命名为FlexInfer。首先，它可以根据任务准确率要求自适应地选择数据分辨率和边缘服务器或云服务器进行推理。其次，针对边云协同过程中的不确定性建立了鲁棒模型。然后通过列和约束生成迭代优化算法获得模型版本的选择，从而在满足准确率要求的同时，最小化推理任务的成本。最终通过自适应两阶段鲁棒优化实现资源约束下边云系统的高效率协同推理。

本文的创新点如下：

(1) 提出了全新的边云协同推理架构，可以通过多版本模型和数据协同来降低推理成本。

(2) 将联合配置和边云协同建模为鲁棒优化问题，以保证在准确率要求下的推理效率。

(3) 提出了一种自适应两阶段鲁棒优化算法，以实现资源约束下准确率与成本之间的权衡。

实验结果

本文所提方案在一台云服务器和四台边缘服务器上进行了仿真实验。五个不同规模的DNN模型分别部署在边缘服务器和云服务器上。我们在不同带宽环境下和不同推理任务请求速率下进行了性能评估，评估结果下图所示。我们发现本文方法在不同的推理请求率下实现了最佳性能。当推理请求率增加时，其他方法的成本迅速增长，本文方法的优势变得更加明显。值得注意的是，我们的方法在动态网络条件下也展现出更好的效果，这要归功于其具备的自适应两阶段鲁棒优化机制。综合而言，我们的研究在上述评估中成功实现了准确性和成本之间的巧妙平衡，充分印证了本文方案在多种应用场景下的适应性。

出版信息

Zheming YANG, Wen JI & Zhi WANG. Adaptive joint configuration optimization forcollaborative inference in edge-cloud systems. Sci China Inf Sci, vol.67, iss.4, article ID: 149103, doi: 10.1007/s11432-023-3957-4

论文地址：https://www.sciengine.com/SCIS/doi/10.1007/s11432-023-3957-4;JSESSIONID=79855d9d-f386-4684-95f9-936d632012b0