在RTC中采用基于学习的递归神经网络进行拥塞控制

近年来，实时通信（RTC）在许多场景中得到了广泛的应用，而拥塞控制（CC）是改善此类应用体验的重要方法之一。准确的带宽预测是CC方案的关键。然而，设计一个有效的拥塞控制方案与准确的带宽预测是具有挑战性的，主要是因为它本质上是一个部分可观察的马尔可夫过程（POMDP）问题，很难使用传统机器学习的方法来解决。本文提出了一种新的混合 CC 机制 LRCC，它结合了基于注意力的长短期记忆（LSTM）和强化学习（RL），通过将递归神经网络提供的带宽记忆信息加入到 RL 决策过程中，实现了更精确的带宽预测和拥塞控制。

作者：Jingshun Du, Chaokun Zhang∗, Shen He, and Wenyu Qu
来源：ISCC ’23
论文题目：Learning-Based Congestion Control Assisted by Recurrent Neural Networks for Real-Time Communication
论文链接：https://ieeexplore.ieee.org/abstract/document/10218019
内容整理：王柯喻

挑战

WebRTC 作为网页 RTC 的开源项目，近年来受到了用户的广泛关注。因此，提升WebRTC应用的用户体验成为当下研究重点。拥塞控制旨在将网络链路的数据流保持在带宽瓶颈附近。如图1所示，在发送速率达到带宽瓶颈后，接收速率停止增加，相反，延迟开始显著增加。这是由于发送速率太大，导致网络上的数据流超过了瓶颈，这反映了准确预测带宽瓶颈的重要性。近年来，流媒体领域提出了许多基于带宽预测的CC 方案。然而，考虑到 WebRTC 对低延迟(500ms以内)的更高要求，WebRTC 中的带宽预测必须更准确，波动和误差更小。

在RTC中采用基于学习的递归神经网络进行拥塞控制 | ISCC 2023 — 图 1 接收速率和发送速率方面的延迟变化

模型搭建

问题建模

本文将 RTC 场景中的拥塞控制问题建模为 POMDP ，其可以描述为6元组（S，A，T，R，Ω，O）。S、A、T、R是 MDP 的状态、动作、转换和奖励。Ω是观测空间，所以观测o满足o ∈ Ω。观测值o是根据概率分布o ~ O（s）从底层系统状态生成的，它可以被视为一些关键的网络指标。现在强化学习中 agent 接收观察向量 o，然后根据 o选择动作a ∈A，即未来带宽的预测值。置信状态 b 符合 S 上的概率分布。用 b（s）表示置信状态 b 分配给状态s的概率，现在我们可以为策略 π 定义以下值函数：

可以把LRCC看作一个强化学习框架，它的目标是优化系统状态值V（b），这意味着LRCC需要从连续动作空间 A 中选择能够最大化系统奖励累积的动作 a。然后可以使用QoE因素来构建奖励系统以促进学习。

系统环境

选择 AlphaRTC 作为 RTC 系统的基础，它从RTC 系统中分离出拥塞控制模块，以方便研究人员设计拥塞控制。LRCC 在 AlphaRTC 提供的接口文件中实现，完成拥塞控制的仿真。总的来说，AlphaRTC 提供了运行和调试我们基于强化学习的拥塞控制方案 LRCC 的环境。LRCC框架如图2所示。LRCC 可以获得 AlphaRTC 运行时的 RTP 统计信息，包括平均时延 Dt、平均丢包率Lt、平均接收速率 Rt、最后预测带宽 Pt。带宽收集器将收集最近的接收速率 Rt 并生成吞吐量序列作为 LSTM 预测模型的输入。LSTM 预测模型将输出下一个时间间隔的初步预测带宽 Btk ，并且Btk将与上述 RTP 统计数据一起添加到状态向量。状态生成器将汇集这些统计数据并得到5维向量 St ，其可以被视为先前建模过程中提到的观测值。最后，将 RL agent 输出的增益系数 μ 和LSTM模型输出的预测带宽 B 一起发送到融合网络。融合网络的输出值是最终的带宽预测值 P ，可以看作是前面建模过程中提到的动作 a。P 流将作为 RTCP 反馈数据发送到模拟器，AlphaRTC 根据它调整媒体编码参数。

LSTM预测模型

LSTM模型

LRCC采用基于注意力的 LSTM 模型进行带宽预测。带宽收集器将不断更新最新的历史吞吐量序列作为LSTM模型的输入。LSTM模型的输出被分配不同的权重，并被注意力机制取代，以获得初步的带宽值 B。

注意机制

硬注意和软注意是典型的注意机制。本文采用软注意力机制，因为它可以在收敛过程中学习权重。注意力机制提取历史吞吐量序列中的关键信息，可以进一步提高带宽预测的准确性。基于注意力的LSTM如图3所示。在图中，h和c分别表示LSTM的隐藏层输出和中间语义向量。

训练算法

强化学习算法选择基于演员-评论家框架的最近策略优化（PPO）。PPO 是 openAI 的默认算法，性能良好，可以满足任务需求。图4描绘了 RL 代理网络的结构。在初步特征提取之后，它与两个完全连接的层相结合。最后，演员网络输出动作，评论家网络输出用于评估动作质量的值。

奖励函数

奖励函数支持增加带宽利用率的行为，并惩罚导致高数据包延迟和高数据包丢失率的行为。定义为：

融合网络

LSTM 模型的预测结果不稳定，对不同网络环境的适应性差，难以应对突发的带宽波动。因此，通过将 RL代理的输出 μ 与带宽 B 相结合来获得最终的带宽预测 P。这种设计可以防止过度波动。然而，它们的映射方法都是简单的基于规则的映射，面对不同的网络环境，性能会有所下降。因此，本文设计了一个简单的融合网络作为映射函数，它由一个具有一维输出的多层感知器（MLP）实现，打破了传统的输入线性组合，可以接受训练以适应新的环境。μ 和 B 被输入到融合网络以获得最终带宽预测值 P

实验

实验环境

Ubuntu 20.04系统、64 G RAM、Intel（R）Xeon（R）Silver 4208 CPU（2.10 GHz）和GeForce RTX 3090（24 G VRAM）

实验数据

使用 OpenNetLab 提供的网络数据作为输入。这些网络轨迹是通过使用 iperf 探测真实的网络环境获得的。迹线包含各种网络场景，包括 4G 网络、5G网络和有线网络。每个跟踪记录不断变化的网络环境（例如延迟、丢失和带宽容量）。以4G 3mbps跟踪为例，它以200ms的粒度记录了超过60秒的吞吐量。4G 走线的平均带宽从500kbps到3Mbps，5G走线的平均带宽从12Mbps到13Mbps，有线走线的平均带宽从900Kbps到35Mbps。上述跟踪的25%指定[20%，50%]丢包率，其中40%指定[200 ms，500 ms]往返时间（RTT）。

对比实验

选择了以下三个具有代表性的 CC 方案进行实验评估。它们分别代表了现有的先进的完全启发式计划，完全基于RL的计划，和混合计划。

GCC ：GCC 是一个经典的完全启发式算法。它是WebRTC 使用的默认 CC 方案，它使用基于延迟的状态机模型和基于丢失的规则，根据从RTCP数据包收集的网络状态给予比特率
PPO ：PPO 是一个完全的 RL 方案。这是OpenNetLab提供的用例中的方案。PPO 将网络反馈的统计数据作为输入，直接输出预测带宽。
HRCC ：HRCC 是一种混合 CC 方案，它使用RL代理和GCC，结合了启发式方案和基于 RL 的方案的优点。RL代理周期性地生成增益系数以调整由启发式方案估计的带宽。

在3种不同的网络场景下进行仿真，比较LRCC与其他CC方案。结果如图5所示，与其他CC方案相比，LRCC在所有QoE指标上具有最佳性能。与目前仍广泛使用的启发式方案GCC相比，LRCC可以将4G网络的整体QoE性能提高25%。这是因为引入了基于注意力的强化学习中的LSTM，以及历史吞吐量的内存信息可以被RL代理利用，从而在部分可观测的环境中更好地微调最终的带宽预测值，即可有效减少网络中视频数据流量超过带宽瓶颈的现象。

此外本文还对 4G 场景下各方案的关键指标进行了分析比较，认为 4G 痕迹比其他痕迹更能反映低带宽的网络环境。各方案关键指标测试结果见图6。每个方案用20分表示，因为每个方案都测试了20次。由图6（a）和图6（B）可知，在相同的时延条件下，LRCC比其他方案具有更高的接收速率和更低的丢包率。从图6（c）中散点的三维分布趋势可以明显看出，LRCC在延迟、丢包率和接收率等所有关键指标方面都具有最佳性能。