技术文章
-
网心科技李浩:构建新摩尔定律下的算力分发网络
3月31日,LiveVideoStackCon 2022音视频技术大会·北京站拉开帷幕。网心科技CEO李浩受邀出席,并发表了题为《构建新摩尔定律下的算力分发网络》的主题演讲。 李浩…
-
传输体积下降 85%,融云 HTTP 压缩算法解析
在音视频通话,尤其是多人群组通话场景,过大的请求包体会导致客户端频繁报错、连接超时等问题。 为解决这一问题,融云引入并优化相关算法,使呼叫和全局双向请求传输体积下降了 85%,为用…
-
IM专题:分层架构IM系统(15)—状态同步逻辑实现
在 IM 系统中,“用户状态” 通常指用户的离线和在线状态;在一些企业 IM 系统应用中,会对用户的状态进行扩展,比如:“会议中”、“疯狂编码中”、“发热中” 等等;对于前一类用户…
-
快手音视频图像算法负责人分享视频画质修复“秘笈”
回忆起一年多前那场“倒计时应战”,每一位参与的快手音视频技术团队成员都历历在目。 当时,国际巨星成龙即将在快手开通全球首个短视频社交账号。这次官宣势必会聚集全球各地的大量粉丝,这也…
-
开源轻量级 IM 框架 MobileIMSDK 的微信小程序端已发布!
MobileIMSDK – 微信小程序端是一套基于微信原生 WebSocket 的即时通讯库: 1)超轻量级、无任何第 3 方库依赖(开箱即用); 2)纯 JS 编写、…
-
端到端语音识别工具包 WeNet 的编译及运行
听说端到端语音识别工具包 WeNet 效果还不错,但在测试电脑上用 Docker 进行测试并不成功。在使用源码编译的过程中也遇见些问题,遂记…
-
使用 ChatGPT API 和 Node.js 创建 CLI 聊天机器人
本文作者 Phil Nash 基于 ChatGPT API,分享了使用 Node.js 用 31 行代码实现聊天机器人命令行界面 (CLI) 的过程。 完整代码: 运行此代码时,它…
-
FFmpeg filters 分析(FFmpeg 滤镜相关的一些概念和 API)
一、概述 FFmpeg 提供了一种以管道的方式对音视频进行滤镜操作的框架。其也内置了非常多的滤镜,如果这些滤镜还不能满足需求的话也可以自行开发。 本文主要梳理 FFmpeg 滤镜相…
-
FFmpeg af_silencedetect 的实现
本文分析 FFmpeg af_silencedetect 的实现。 一、af_silencedetect 的作用及基本原理 af_silencedet…
-
FFmpeg af_volumedetect 的实现
本文分析 FFmpeg af_volumedetect 的实现。 一、af_volumedetect 的作用及基本原理 af_volumedetect…
-
FFmpeg silenceremove 音频静音修剪
本文主要测试在 FFmpeg 命令中使用 silenceremove filter 进行音频静音的修剪。 参数说明 1、start_x 参数…
-
基于时空分辨率自适应的视频压缩
本文提出了一种基于时空分辨率自适应的视频压缩框架(ViSTRA),该框架基于定量分辨率决策,在编码过程中对输入视频进行时空动态重采样,并在解码器处重建全分辨率视频。时间上采样采用帧…
-
FFmpeg filters 分析: af_volume
一、概述 本文分析 FFmpeg af_volume 的实现 二、af_volume的作用及基本原理 af_volume的作用是调整音频的音量,基本原理是PCM数据乘于某个系数,就…
-
AV1中的混合帧间预测compound inter prediction
由于目前互联网上有关AV1视频编码标准的中文资料特别少,针对它的compound inter prediction这一术语,本文将其译为混合帧间预测,以下皆用此名词代指。 1.基本…
-
面向5G LDPC编码调制系统的低误码平层比特交织方案 | 姜明,朱名扬,赵春明
研究意义 5G移动通信系统中,LDPC码作为主要信道编码方案之一实现了较高的可靠度和吞吐率。近年来,诸多新兴的通信场景对可靠度提出了更高要求。车联网、无人机通信、增强/虚拟现实等新…
-
H264 over RTP 的打包!
一、打包流程: 从H264编码器读出一帧数据(一个完整的H264帧) 然后遍历H264的所有NALU:如果NALU长度小于MTU,则将该NALU打包为一个RTP包;否则,将NALU…
-
得物客户端直播间APM压测实践
1 背景 随着直播行业的飞速发展,越来越多的企业涉足这一领域,直播间的稳定性和用户体验成为了直播平台竞争的重要因素。但是,由于直播间涉及到多个复杂的技术环节,如视频传输、网络通讯、…
-
图像分割:超像素(Superpixel)分割的大致原理
一、背景 首先一张图片由一个个像素组成(可以看成网格),每个像素可以有一个灰度值(标量)或RGB值(三维向量)。 http://a-chien.blogspot.de/2017/0…
-
远不止虚拟主播!深度剖析AIGC技术在智慧广电与网络新视听中的应用
近年,随着算力、预训练模型和多模态技术的不断汇聚发展,在自然语言和音视频领域涌现出大量人工智能生产内容(Artificial Intelligence Generated Cont…
-
顺丰科技基于WeNet端到端语音识别方案落地
顺丰作为国内领先的快递物流综合服务商,一直致力于为用户提供更优质、更高效便捷的快递物流服务。顺丰科技作为顺丰集团旗下的科技公司,以科技深耕于物流与供应链行业,通过在大数据、人工智能…