音视频问答–RTP时间戳的作用

背景介绍

在知乎上收到这样一个问题邀请：

RTP传输中时间戳字段在任何情况下都是必要的吗？

刚开始学习RTP协议，以传输视频为例，播放端可以根据时间戳，将每一帧在适当的时间点播放出来。

我的疑惑是，播放端可以提前与发送端沟通帧率，也就知道每一帧播放后，下一帧应该在多久后开始播放，那么这种情况下时间戳还有用处吗？

该问题也是最近一两个月做校招时候考核面试者的一道拓展题，看看面试者是否真正理解RTP协议。

Spec规定

RTP的协议可以参考RFC3550：https://datatracker.ietf.org/doc/html/rfc3550

时间戳戳(Timestamp)：占32位，必须使用90 kHz 时钟频率。时戳反映了该RTP报文的第一个八位组的采样时刻。接收者使用时戳来计算延迟和延迟抖动，并进行同步控制。

RTP时间戳是实时多媒体通信中的关键工具，它对于媒体流的同步、抖动控制和丢包检测等都起到了至关重要的作用。时间戳可以标记数据块的先后顺序，帮助接收端恢复原始的播放顺序和速度。而且，由于时间戳的单位是采样频率的倒数，因此它能够直接反映出数据的物理产生时间，使得处理过程不受网络延迟和抖动的影响。

在实际操作中，采集的数据会即刻传递到RTP模块进行发送，这个过程中，数据块的采集时间戳就被直接用作RTP包的时间戳。这种设计使得接收端能够根据时间戳准确知道应当在什么时间还原哪一个数据块，从而消除传输中的抖动。

值得注意的是，RTP时间戳的粒度取决于有效载荷的类型，也就是说，不同类型的媒体有不同的时间戳粒度。例如，对于8kHz采样的话音信号，每个数据块包含有160个样本（0.02×8000=160），因此每发送一个RTP分组，其时间戳的值就增加160。

在此也简单列举一些 RTP 时间戳的主要应用场景：

抖动缓冲区计算：RTP 时间戳也可以用于计算网络抖动差值，来帮助创建和管理抖动缓冲区以减轻网络延迟变化所造成的影响。

丢包检测：接收器可以利用连续的 RTP 时间戳来检测丢包情况。如果从一个包到下一个包之间的时间戳增量大于预期，那么就可能发生了丢包现象。

延迟测量：在回音消除等应用中，RTP 时间戳可以用于测量延迟。

媒体同步：在接收端，RTP 时间戳可以用来为不同的媒体流（例如音频和视频）提供同步。通过比较不同流的时间戳，接收器可以确定何时呈现每个媒体样本以确保音频与视频同步。

播放速率控制：RTP 时间戳可以帮助接收器确定原始的采样率并据此控制播放速度。

网络检测

即使接收端提前知道帧速率，RTP 时间戳在这种情况下仍然有用。时间戳允许接收端与发送者同步视频的播放，即使存在网络抖动或丢包。

例如，假设接收端知道视频正在以每秒 30 帧的速度进行编码。这意味着接收端期望每 33.33 毫秒收到一个新帧。然而，由于网络抖动，接收端可能无法准确按时接收每一帧。RTP 时间戳允许接收端补偿这种抖动。当接收端收到新帧时，会将帧的时间戳与预期时间戳进行比较。如果时间戳高于预期时间戳，则接收端知道该帧被延迟。然后接收端可以延迟帧的播放，直到预期的时间戳。这可以确保即使存在网络抖动，视频也能以正确的速度播放。

除了补偿网络抖动之外，RTP 时间戳还可用于从数据包丢失中恢复。如果接收端没有收到帧，则可以使用前一帧的时间戳来计算丢失帧的时间戳。然后，接收端可以向发送者请求丢失的帧。这允许接收端从数据包丢失中恢复，而无需重新启动视频播放。

抖动是核心网络指标之一，它可以让您了解网络性能，并且还可以对最终用户体验产生巨大影响。

测量抖动的原因有很多。原因如下：

监控网络性能：测量网络抖动非常重要，因为它可以帮助您了解网络性能的质量，特别是对于 VoIP 和视频会议等时间关键型应用程序。
识别网络问题：通过测量抖动，您可以识别可能导致网络流量故障或延迟的任何计时问题。这可以帮助您在问题影响您的应用程序或最终用户之前主动排除故障并解决问题。
优化网络性能：此外，测量网络抖动还可以通过确定可以优先考虑网络流量或升级网络硬件以减少抖动的区域来帮助您优化网络性能。这有助于确保您的网络高效运行并满足应用程序和用户的性能需求。

https://blog.csdn.net/Chengzi_comm/article/details/89526935

文中详细介绍了webrtc的统计信息获取流程：

音画同步

根据RTP规范，每一个RTP媒体流都有自己独立的时间戳，它们以各自的采样率为基础来进行计算。例如，对于视频，通常的采样率是90KHz，而对于音频，则可能是8KHz或16KHz。因此，虽然两个流在物理传输上是分离的，但它们可以通过各自的时间戳来实现自身的同步。

具体来说，在视频流中，每一帧都会被赋予一个时间戳。这个时间戳表示了该帧在源中产生的绝对时间。接收器可以根据这些时间戳来计算出相邻帧之间的间隔，从而推断出视频帧的播放顺序和速度。按照预定的间隔去呈现视频，就可以获得与原始流相符合的效果，实现所谓的“内部同步”。

对于音频流，情况也是类似的。每个音频样本都由其自身的时间戳标识，用来指示样本应该被播放的时间。接收器可以使用这些时间戳来计算出音频的正确播放顺序和速度。

然而，需要注意的是，虽然视频和音频流各自可以实现内部同步，但在实际应用中，我们还需要让它们之间也能保持同步。也就是说，某个特定的视频帧应该与特定的音频样本同时呈现。这通常是通过将RTP时间戳与RTCP（实时传输控制协议）报告结合起来，进行“外部同步”。

RTCP报告包括了发送端的NTP（网络时间协议）时间戳，以及与其相对应的RTP时间戳。接收端可以利用这些信息来将不同媒体流的时间戳映射到同一全局时间轴上，从而实现音频和视频流之间的同步。

倍速播放

倍速播放的基本原理：

当我们调整播放速度时，实际上是在改变解码和展示每一帧的间隔时间。举例来说，如果我们将播放速度设置为2倍速，那么每一帧的展示时间将会减半。这样，虽然每一帧的时间戳并没有改变，但由于播放器按照加快的速度进行解码和展示，就实现了倍速播放。

在流媒体播放中，时间戳（Timestamp）起着至关重要的角色，尤其在倍速播放时。倍速播放指的是播放速度快于（或慢于）正常速度的播放模式，例如，2倍速表示播放速度是正常速度的两倍，而0.5倍速则表示播放速度只有正常速度的一半。

时间戳在流媒体播放中的作用：时间戳标记了视频和音频帧的产生时间，它是确定每一帧何时被展示的关键。接收端可以通过时间戳恢复出原始的播放顺序和速度，以实现音频和视频的同步播放。

需要注意的是，在倍速播放时，音频的处理比视频更复杂一些。因为简单地加快音频的播放速度可能会导致音频的音调发生变化。为了解决这个问题，播放器通常会使用一些算法（如时间伸缩技术）来调整音频的播放速度，同时保持音调不变。

时间戳在倍速播放中的作用：在倍速播放时，时间戳依然是确定每一帧何时被展示的关键。只不过此时，播放器需要根据设置的播放速度来调整展示的间隔时间。例如，对于2倍速的播放，播放器将会以两倍的速度读取和处理时间戳，从而实现音视频数据的快速播放。同样，对于0.5倍速的播放，播放器将会以半倍的速度读取和处理时间戳，从而实现音视频数据的慢速播放。

https://blog.csdn.net/weixin_40777510/article/details/110120990

https://trac.ffmpeg.org/wiki/How%20to%20speed%20up%20/%20slow%20down%20a%20video

然而，尽管时间戳为我们提供了强大的工具来处理实时多媒体数据，但它并不是万能的。例如，在丢包的情况下，单独依赖时间戳可能无法完全恢复出原始的数据流，这就需要借助其他的机制，如序列号和重传请求等。此外，虽然RTP协议并没有规定时间戳的粒度，但是如果粒度选择得过大或过小，都可能导致同步精度的降低或者计算量的增加。

我是一枚爱跑步的程序猿，维护公众号和知乎专栏《MediaStack》，有兴趣可以关注，一起学习音视频知识，时不时分享实战经验。