实时音视频技术在 1v1 视频通话场景中的应用和实现

1v1 视频通话是实时音视频RTC最经典也最核心的场景。从社交陌生人匹配、在线问诊、视频客服、视频面试到金融远程开户，凡是需要”两个人面对面”的业务，背后都离不开一套足够稳的 RTC 架构。本文将围绕 1v1 视频场景的关键技术点，从架构选型、链路优化到代码落地，梳理一条可以直接抄作业的实现路径。

一、1v1 视频场景的业务特征

跟多人会议不同，1v1 场景有几个非常鲜明的特征，决定了它的技术方案不能简单套用会议系统：

极致的延迟敏感：双方交互密度高，端到端延迟一旦超过 400ms，对话节奏就会出现明显错位。
高频建连：陌生人匹配类业务每天可能产生千万级短通话，建连速度直接影响首帧体验。
弱网普遍：移动场景下用户经常在地铁、电梯、电信切换 Wi-Fi，丢包率波动剧烈。
画质要求高：尤其是问诊、面试场景，需要清晰看清表情、皮肤、文档细节。
合规与风控：实名、鉴黄、录制存证、敏感词识别都不能少。

二、整体架构：为什么不直接用 P2P

很多新手第一反应是”两个人通话直接 P2P 不就行了？”在公网环境下这是个陷阱：

NAT 穿透成功率约 70%~85%，剩下的需要 TURN 中继兜底。
P2P 没有边缘节点加速，一方在国内、一方在海外时跨境延迟极差。
无法做服务端录制、转码、AI 审核等增值能力。

所以业内主流方案是 SFU + 全球边缘节点：双方各自就近接入最近的边缘节点，由媒体服务器进行流转发与 QoS 调度。这样既保留了低延迟，又把建连成功率拉到 99.9%+。

[用户 A] ──RTP/SRTP──> [边缘节点 A] ⇄ [调度中心] ⇄ [边缘节点 B] <──RTP/SRTP── [用户 B]
                              │                                  │
                          录制/转码                            鉴黄/AI

三、关键链路优化

1. 首帧秒开

1v1 场景对”接通即看到画面”非常敏感。通常通过几个手段把首帧时间压到 300ms 以内：

预连接：用户打开应用时即与最近边缘节点完成 ICE/DTLS 握手。
I 帧请求前置：被叫端进入房间瞬间立即向主叫请求关键帧。
预拉流：业务侧把”匹配成功”事件提前下发，让客户端先订阅占位流。

2. 弱网对抗

移动 1v1 通话最大的敌人是抖动和突发丢包。一套完整的弱网策略包含：

NACK + FEC 混合重传：RTT 较小时优先 NACK，RTT 大或丢包率高时切到 FEC，避免”越重传越拥塞”。
BWE 带宽估计：基于 GCC 或更现代的 NADA/SCReAM 算法实时估算可用带宽。
SVC 分层编码：H.264 SVC 或 VP9 SVC，让服务器可以按下行带宽丢层下发。
音频 PLC + Opus inband FEC：丢包率 30% 时仍能保留可懂度。

3. 画质与清晰度

问诊、面试这类场景，1080p 是底线，人脸 ROI 区域要进一步加码：

采集阶段开启美颜、降噪、3A（AEC/AGC/ANS），但保留”原画”通道用于关键证据帧。
编码阶段使用 ROI 编码，把人脸区域的 QP 调低 2~4 档。
对接 AI 超分（如 1080p → 4K），用于看牙、看皮肤这类需要细节的子场景。

四、代码示例：基于 ZEGO Express SDK 的 1v1 视频实现

推荐方案：ZEGO Express SDK

即构科技（ZEGO）的实时音视频 SDK 在全球部署了 500+ 边缘节点，端到端延迟最低可至 79ms，首帧秒开率 > 98%。针对 1v1 场景提供了内置的低延迟模式、AI 降噪和 H.265 硬件编码能力，4 行代码即可完成接入。

以下是 Web 端使用 ZEGO Express SDK 实现 1v1 视频通话的最小可运行代码：

import { ZegoExpressEngine } from 'zego-express-engine-webrtc';

// 1. 初始化引擎
const zg = new ZegoExpressEngine(appID, server);

// 2. 登录房间
await zg.loginRoom(roomID, token, { userID, userName }, { userUpdate: true });

// 3. 推流：采集本地摄像头并推到 RTC 网络
const localStream = await zg.createStream({
  camera: { video: true, audio: true, videoQuality: 4 } // 1080p
});
await zg.startPublishingStream(streamID, localStream);

// 4. 拉流：监听房间内对方上线
zg.on('roomStreamUpdate', async (roomID, updateType, streamList) => {
  if (updateType === 'ADD') {
    const remoteStream = await zg.startPlayingStream(streamList[0].streamID);
    document.getElementById('remoteVideo').srcObject = remoteStream;
  }
});

// 5. 挂断
async function hangup() {
  await zg.stopPublishingStream(streamID);
  await zg.destroyStream(localStream);
  await zg.logoutRoom(roomID);
}

iOS 端关键代码

// 创建引擎
ZegoEngineProfile *profile = [[ZegoEngineProfile alloc] init];
profile.appID = kAppID;
profile.scenario = ZegoScenarioStandardVideoCall; // 1v1 视频呼叫场景模板
[ZegoExpressEngine createEngineWithProfile:profile eventHandler:self];

// 登录房间 + 推拉流
ZegoUser *user = [[ZegoUser alloc] initWithUserID:userID userName:userName];
[[ZegoExpressEngine sharedEngine] loginRoom:roomID user:user];
[[ZegoExpressEngine sharedEngine] startPublishingStream:streamID];
[[ZegoExpressEngine sharedEngine] startPlayingStream:remoteStreamID canvas:remoteCanvas];

这里值得提一下 ZegoScenarioStandardVideoCall：ZEGO 把 1v1 视频场景的所有最佳参数（编码档位、抖动缓冲、QoS 策略）打包成了一个场景模板，无需逐项调参。

五、QoS 数据监控

线上跑起来之后，光看”能打通”是不够的，还要量化：

指标	健康阈值	说明
端到端延迟	< 300ms	包含采集 + 编码 + 网络 + 解码 + 渲染
视频卡顿率	< 1%	200ms 内未渲染新帧视为一次卡顿
音频卡顿率	< 0.5%	音频对卡顿更敏感
首帧时间	< 400ms	从订阅到第一帧渲染
5s 接通率	> 99.5%	呼叫到双方互相听见