技术文章
-
Meta为实时渲染参数化3D手部模型提出神经重照明框架
近年来,神经渲染方法显著提高了人脸渲染真实感。相关方法使用深度神经网络对人类皮肤上的光传输进行建模,通过重建真实图像直接再现物理效应,如亚表面散射。然而,尽管神经重照明取得了成功,…
-
当 MQTT 遇上 ChatGPT:探索可自然交互的物联网智能应用
随着物联网技术的迅猛发展,人与设备、设备与设备之间的互动已变得不再困难,而如何更加自然、高效、智能地实现交互则成为物联网领域新的挑战。 近期,由 OpenAI 发布的 ChatGP…
-
5G 高低频协同上行增强技术研究
摘要:时频双聚合技术用于 SA 网络架构,在载波聚合技术基础上,通过较低频的 2.1 GHz FDD 载波来辅助较高频段的 3.5 GHz TDD 载波来实现上行覆盖增强,同时下行…
-
OpenGL Shader 编程基础-绘制基础图形
我们可以通过顶点着色器来绘制点线面图形,并组合成其他各种形状,但是一般 2D 场景中,顶点着色器一般都不改,并且它一般决定的是整个画布的大小。 所以这里探讨的是通过片元着色器来绘制…
-
智能感知编码优化与落地实践
基于人眼视觉特性出发的感知编码优化技术,成为互联网短视频、OTT 等 UGC 场景的重点优化手段,可以在降低视频码率的同时,提升视频的观看体验。 今天主要有 4 个方面的内容。首先…
-
5G网络分流比提升方法研究
摘要:分析了5G网络分流比的影响,从5G终端功能打开统计分析、5G网络覆盖情况分析、4G/5G网络无法共址建设原因以及4G/5G互操作参数设置情况分析了5G分流比低的原因,提出了提…
-
杜比 Ac-4 与 MPEG-H:下一代音频编解码器
下一代音频 (NGA) 的两个领先实现是杜比 AC-4 和 MPEG-H。尽管它们都基于 ITU 的一套核心建议,但它们有不同的起源、优势和局限性。 杜比 AC-4 与 MPEG-…
-
如何以实时精度完善 5G 场内体验
随着 5G 服务提供商宣布改变人们在体育场馆和音乐厅参加活动时的体验的头条新闻承诺,这些努力面临的尚未解决的挑战被忽视了。简而言之,仅靠 5G 无法可靠地提供具有完美同步的直播和屏…
-
WebRTC RTCP协议 PLI、FIR 请求关键帧
本篇文章主要介绍rtcp的反馈包,在音视频通话过程中反馈包是接收端用来通知发送端的消息。 RTCP 反馈包 反馈包详情见:rfc4585 反馈包协议格式: 协议字段介绍 versi…
-
WebRTC Android 视频硬件编码
本文将重点介绍在 Android 平台上,WebRTC 是如何使用 MediaCodec 对视频数据进行编码,以及在整个编码过程中 webrtc native 与 java 的流程…
-
B站公布新专利,可在车载场景下语音发布弹幕
5 月 14 日消息,上海哔哩哔哩科技有限公司申请的“弹幕处理方法及装置”专利公布,实现了在车载场景的情况下使用语音发布弹幕。 IT之家附专利摘要: 本申请提供弹幕处理方法及装置,…
-
音视频编解码WebP格式
WebP 是一种由 Google 开发的图像格式,旨在提供比传统 PNG 和 JPEG 格式更高效的压缩算法。它可以在保持很好的视觉质量的同时减小文件大小,从而加快图像加载速度并降…
-
掩码语言模型(MLM)的加权采样策略 | ICASSP2023
本次分享阿里巴巴达摩院语音实验室、新南威尔士大学与香港科技大学(广州)等在ICASSP2023会议发表的论文《Weighted Sampling for Masked Langua…
-
DCVC-DC 多样化上下文的深度视频压缩 | CVPR 2023
本文基于深度视频压缩模型 DCVC 的上下文条件编码框架,在时域和空域中挖掘更加多样化的上下文信息,提出的模型 DCVC-DC 达到了 SOTA 性能。 论文标题:Neural V…
-
语音鉴伪&说话人识别
随着语音处理技术的不断提升,伪造语音的身影在社会生活中出现的更加频繁,一方面语音提醒、语音解锁以及短视频配音等自动化语音技术极大的丰富了人们业余生活,但是随之而来的滥用问题也给生活…
-
SRTP 协议是什么?SRTP 协议格式及加密介绍
SRTP协议是什么 SRTP,即安全实时传输协议(Secure Real-time Transport Protocol),是在实时传输协议(Real-time Transport…
-
RTCP协议之SR和RR简介
RTCP:实时传输控制协议(Real Time Transport Control Protocol),主要是用来反馈音视频通信时的质量。 常用的RTCP 类型: 包类型 缩写 作…
-
WebRTC NACK 机制,Mediasoup对NACK的处理
由于webrtc所用的rtp协议底层是基于udp传输,所以并不能保证数据的可靠性。在发生丢包时,为了保证音视频的质量需要进行重传,而nack机制就是用来处理重传逻辑的,需要注意一点…
-
音视频开发入门:音频基础
什么是声音 介质振动在听觉系统中产生的反应。是一种波。因为是一种波,所以我们可以用频率、振幅等描述。 频率与振幅 有两个基本的物理属性:频率与振幅。声音的振幅就是音量,也叫作响度,…
-
在OpenCV中使用Canny边缘检测
边缘检测是非常常见和广泛使用的图像处理,对于许多不同的计算机视觉应用非常必要,如数据提取,图像分割,在更细粒度的特征提取和模式识别中。它降低了图像中的噪声和细节数量,但保留了图像的…