技术文章
-
元宇宙开放标准(MSF)简介
元宇宙是一个虚拟空间,它结合了网络的连接性和空间计算的沉浸性,汇集了多种颠覆性技术,元宇宙标准论坛是标准组织和更广泛的行业之间的合作场所,以促进开放和包容的元宇宙的互操作性标准的发…
-
NED:自然视频中保持语音的人脸表情语义控制 | CVPR 2022
这篇文章提出了一种用于在自然视频中对人物的情绪状态进行真实感操纵的深度学习方法。该方法基于输入场景中人物的 3D 人脸参数表示,从头部姿态和面部表情中解耦了人脸身份,然后使用一个新…
-
宽高比和 16:9 宽高比:视频技术中宽高比的综合指南
在视频世界中,“宽高比”在视觉内容的呈现和质量方面起着重要作用。宽高比是指图像或视频的宽度和高度之间的比例关系。 你的视频的宽高比会影响它在不同设备屏幕上的显示方式,从而影响观众体…
-
边缘计算,光的形式
“嘿,Siri,今天天气怎么样?” 设想这样一个场景,当你早上起床,向你的智能手机发起这样一个语音指令,从用户命令到结果可能有大约0.2秒的延迟——看似一个非常小的数字,但实际上,…
-
音视频编解码–PNG格式代码走读
PNG格式是一种流行的图像文件格式,编解码是音视频编解码中的重要一环。在本文中,我们引用了FFMPEG 5.0中的代码,深入探讨了PNG编解码的实现。 在具体的代码实现中,涉及到了…
-
2023 年 MQTT 协议的 7 个技术趋势|描绘物联网的未来
MQTT 是物联网消息传输标准协议,其采用极其轻量级的发布订阅消息模型,以可扩展、可靠且高效的方式连接物联网设备。 自 1999 年 IBM 发布 MQTT 以来已经过去了二十多年…
-
IM专题:分层架构IM系统(16)—多媒体逻辑实现
现在 IM 系统已经不仅限于文本消息的通讯了,多媒体数据占据越来越多的比重,比如:文件传输、语音通话、视频通话等。 在前面的文章(IM专题:IM需求分析模型)中我们分析过,“多媒体…
-
音视频开发进阶课程|第七讲下:分辨率与帧率之“一定频率”
在视频系列的上一篇推文中,我们简单总结了色彩、像素、图像和视频等基础概念之间的关系。并且主要关注了两个组合:像素和图像,图像和视频之间的构成逻辑。我们先来简单回顾一下: 从像素到图…
-
WebRTC MediaDevices API 获取媒体设备的访问权限(webrtc入门二)
本文将介绍 MediaDevices API,如何获取用户的媒体设备(摄像头和麦克风)以及如何获取特定的视频分辨率等。 这部分是上一篇文章《使用 JavaScript 和 Node…
-
Gartner视角下,边缘云是新兴技术的影响雷达
最近,我们在谈视频化狂飙、谈AIGC颠覆、谈算力动能不足,很少谈及边缘。但“边缘”恰恰与这一切相关,且越发密不可分,它是未来技术发展的极大影响因子。 “到2025年,超过70%的组…
-
FFmpeg 入门学习 09–音视频解码公共接口实现
使用 FFmpeg 进行音视频解码,其实是一套标准操作,按照固定的流程进行实现即可。使用 FFmpeg 进行音视频解码的基本流程、及用到的关键 API 接口和 结构体,如下图所示:…
-
高通骁龙Spaces XR SDK带来空间映射和网格划分功能
骁龙SpacesXR开发者平台是一个支持OpenXR的AR基础平台,支持一系列领先的3D引擎,如Epic Games的Unreal,Niantic的Lightship开发者平台,以…
-
WebRTC动态:M113 中支持 VP9/AV1 联播
近日,在 WebRTC 讨论组中,开发人员 Henrik Boström 表示可以通过指定 scalabilityMode 和 scaleResolutionDownBy 来选择加…
-
融合新技术打造运营商“慢直播+”创新应用模式
2020年初,央视频的《疫情24小时》以慢直播的形式展现火神山和雷神山医院的建设过程,慢直播业态在国内成为现象级的议题。近年来通信运营商将“慢直播”作为视频监控的创新型业务大力发展…
-
WebRTC 实战: P2P 架构的多人音视频通话解决方案
随着互联网技术的飞速发展,实时音视频通话已经成为在线教育、远程办公、社交媒体、云游戏等领域的核心功能。WebRTC(Web Real-Time Communication)作为一项…
-
Qplayer2播放器——用扩展性支撑起未来需求
随着手机性能的不断升级,人们对于播放器的需求也在爆发式增长。对此,LiveVideoStackCon 2022 北京站大会邀请到了来自七牛云的资深开发工程师、播放器负责人,陈军奇老…
-
H.264 码流结构和编解码过程
了解 H.264 的码流结构,以及这样设计的原因,编解码的过程就有了具体的依托。实际上 H.264 规范也是先规定了码流结构,再规定解码器的结构(对于编码器的结构和实现模式没有具体…
-
辛亮博士:5G算网赋能车联网落地
近日,第六届全球边缘计算大会在北京成功召开,本次大会由边缘计算社区主办,并得到了EMQ、火山引擎、联想集团、天翼云、SmartX等企业的联合支持。产、学、研、用各界专家跨界交流,共…
-
基于多任务学习的保留背景音的语音转换 | ICASSP2023
在影视、有声书内容中,背景音是一种表现丰富的艺术形式。语音转换(Voice Conversion)如能将源说话人语音转换成目标说话人语音的同时,保留源语音中的背景音,将会提供更沉浸…
-
如何处理计算机视觉和深度学习中的图像数据
在过去几年从事多个计算机视觉和深度学习项目之后,我在这个博客中收集了关于如何处理图像数据的想法。对数据进行预处理基本上要比直接将其输入深度学习模型更好。有时,甚至可能不需要深度学习…