技术文章
-
低延迟流式语音识别技术在人机语音交互场景中的实践
美团语音交互部针对交互场景下的低延迟语音识别需求,提出了一种全新的低出字延迟流式语音识别方案。本方法将降低延迟问题转换成一个知识蒸馏过程,极大地简化了延迟优化的难度,仅通过一个正则…
-
2023 年 MQTT Broker 技术选型时需要考虑的 7 个因素
MQTT Broker 是用于连接物联网设备,完成消息传递的重要组件。MQTT Broker 的技术选型,是物联网应用构建过程中最为基础也是最为关键的一步。本文将从物联网应用普遍场…
-
WHIP & WHEP:WebRTC 是直播的未来吗?
WHIP 和 WHEP 是让 WebRTC 进入直播的规范。但这真的是未来需要的吗? WebRTC 对于实时性来说是很好的,其他方面就不多说了。最近出现了两个新协议——WHIP 和…
-
视频分辨率如何影响视频质量?
视频分辨率是指构成视频图像的微小点(称为像素)的数量。它由视频的宽度和高度决定。例如,一个分辨率为 1024 X 768 的视频,其宽度为 1024 像素,上下为 768 像素。分…
-
python-ffmpeg 音视频处理库的安装和实操
python-ffmpeg 是一个基于 Python 的音视频处理库,它可以使用 FFmpeg 的各种功能来实现音视频的剪辑、转码、合成等操作。该库是由 FFmpeg 直接绑定的 …
-
点播体验优化:成本与体验的“非零和博弈”
随着移动互联网和智能终端的普及,越来越多的海内外互联网企业开始发力短视频业务。在短视频用户全球化,短视频产品及内容消费井喷式增长的今天,用户开始逐渐对体验有了越来越高的要求。为了更…
-
H264的编码帧类型(IDR帧、I帧、P帧或B帧)和帧结构
通常一个H264码流中包含了多个GOP(图像组),每一个GOP里面包含多个视频编码帧,如下图所示。GOP(Group of Pictures)图像组的意思。H264码流对GOP的划…
-
基于图注意力机制的音频语意概述 | IEEE SPL
音频语意概述是一项跨模态音频内容理解任务,旨在通过自然语言描述音频信号蕴含信息,使机器具备理解表达音频场景事件语意内容的能力。现有的主流音频语意概述方法几乎均采用在AudioSet…
-
IM专题:分层架构IM系统(17)—未读数逻辑实现
在 IM 系统中,“未读数” 是一个非常核心的概念。 首先,从产品体验上,用户登录之后,往往是由消息 “未读数” 引导用户后续的操作;其次,“未读数” 实现逻辑直接影响了上层业务的…
-
UV 体积:可编辑人体自由视角的实时渲染 | CVPR 2023
神经体积渲染使得在自由视角下进行逼真的人体表现成为沉浸式 VR / AR 应用的关键任务,但是渲染过程中的高计算成本限制了其实际应用。为解决这一问题,作者提出了一种新的方法,称为“…
-
基于AIGC的3D场景创作引擎概述
通过改变3D场景制作流程复杂、成本高、门槛高、流动性差的现状,让商家像玩转2D一样去玩转3D,让普通消费者也能参与到3D内容创作和消费中,真正实现内容生产模式从PGC/UGC过渡到…
-
Android App音视频开发学习路线(android音视频开发方向)
本文分享 Android 新手上手 App 音视频开发的学习路线应该是什么样的;同时介绍下 Android 项目中音视频实际开发会遇到的一些事情以及解决方案,我们今天只谈思路涉及具…
-
HEVC 中的 IDR 与 CRA 帧的区别及用例
IDR(Instantaneous Decoder Refresh)和 CRA(Clean Random Access)帧是视频编码中的 IRAP(Random Access Pi…
-
窄带高清画质增强之生成式细节修复
阿里云窄带高清本质上是一种转码质量优化技术,是一套以“人眼主观感受最优”为基准的视频编码技术。研究的是在带宽受限的情况下,如何追求最佳的视觉感受,即人眼感受的主观质量最优。 视频画…
-
WebRTC Android 视频硬编码实现分析
前面我们分析了 WebRTC 的相机采集和预览,接下来的环节就是编码和传输了。本篇关注编码相关的内容,同样也是聚焦于三个问题: 数据怎么送进编码器? 怎么从编码器取数据? 如何做流…
-
AI 教你从前端转型音视频开发高手
前面我们介绍过几篇关于音视频开发的文章,这里不得不提下 ffmpeg。 最直观的案例: 转码 对指定高分辨率的进行低分辨率的转码: 对应的命令: *、”-i a.mp4…
-
腾讯云快直播低延时播放质量的优化实践
直播已经潜移默化成为许多人日常生活密不可分的一部分。无论是紧张刺激的比赛直播,还是垂涎欲滴的美食直播,亦或者自卖自夸的购物直播,大家都不希望在观看时出现长时间的加载和卡顿,对一些需…
-
基于深度学习的交通噪声评估与控制方法
随着城市不断发展,交通噪声日益得到人们的关注,若长时间暴露在交通噪声之中,对人的身心健康会产生一定的负面影响,如听力障碍、情绪烦躁、心脏病等。目前控制并减少交通噪声是交通噪声管理研…
-
新媒体可视化互动视频制作系统在新闻报道中的应用
随着媒体融合的快速发展,新闻报道形式不再 局限于传统的图文和视频,而是呈现多元化的媒体形 态,新闻传播的互动性逐渐增强,观众需要更加沉浸 式和交互式的观看体验。互动视频是一种全新的…
-
视频技术新纪元-面向机器编解码标准
后疫情时代,随着技术的不断发展,机器已经转化为人们生活中的第三只“眼”,如工业质检,无人驾驶,智慧城市等应用愈加依赖与视频信息分析与理解,而使得视频能够更利于机器分析的同时能够进一…