技术文章
-
分享四个屏幕共享API,实现Web屏幕共享
屏幕共享已成为许多 Web 应用程序的重要组成部分,因为它可以实现远程协作和支持。虽然大多数开发者都熟悉用于屏幕共享的标准 WebRTC API,但还有其他不太为人所知的 API,…
-
IM专题:分层架构IM系统(14)—群消息逻辑实现
前面我们分析了 “点对点消息” 的实现逻辑(IM专题:分层架构IM系统(12)—消息收发逻辑实现),今天分析 IM 群消息逻辑。 在之前的文章分析过,“私信消息”(即点对点消息)属…
-
视觉检测中如何提高图片处理速度与质量?
机器视觉系统大体分为图像采集和图像处理两个部分。 图像采集是工业相机与PC端通过图像采集卡相互链接,图像采集卡接收工业相机的模拟信号或数字信号,并将信号处理转换为适用于PC端的信息…
-
FFmpeg 入门学习 07–创建音视频解码管理类
使用 FFmpeg 进行音视频解码,其实是一套标准操作,按照固定的流程进行实现即可。使用 FFmpeg 进行音视频解码的基本流程、及用到的关键 API 接口和 结构体,如下图所示:…
-
FFmpeg 入门学习 06–音视频解码基本流程
如上图所示,在之前文章中介绍了视频播放的基本原理、并且已经实现了解封装的功能。解封装得到的 AVPacket 数据是压缩过的编码数据,需要进一步解码后才可以进行播放。 使用 FFm…
-
FFmpeg 入门学习 05–给解封装线程增加休眠唤醒机制
为使解码过程不会受到解封装过程进展的影响,解封装和解码一般并行操作,两者之间通过缓存数据进行交互。如上图所示: 解封装线程和解码线程可以套用生产者和消费者模式来实现线程间的通信。为…
-
基于隐式表征的光场图像压缩
随着多媒体技术的发展,沉浸式与高自由度逐渐成为多媒体领域重要的发展方向。光场作为众多新媒体形式之一,能够同时捕获空间中光线强度和角度信息,相比于传统媒体具有更丰富的信息和更高的自由…
-
FFmpeg 入门学习 04–生产者消费者模式
为使解码过程不会受到解封装过程进展的影响,解封装和解码一般并行操作,两者之间通过缓存数据进行交互。 背景 生产者消费者模式 如下图所示:生产者在缓冲区未满时不断添加数据,并唤醒消费…
-
超声波传感器带给无人机更经济的定位解决方案
在3D空间中确定确切位置(如机器人或无人机)是一件很难做到的事情。标准的GPS精度非常低,这就是为什么你的导航系统有时会认为你正在附近的道路上行驶,而不是实际行驶的道路。 GPS-…
-
FFmpeg 入门学习 03–缓存队列的实现
在之前的文章中实现了打开视频文件并进行解封装的功能,解封装之后即可进行解码操作。为使解码过程不会受到解封装过程进展的影响,解封装和解码一般并行操作,两者之间通过缓存数据进行交互。 …
-
FFmpeg 入门学习 02–音视频解封装功能实现
在上一篇文章中介绍了视频播放的基本原理。本文继续使用 FFmpeg 来实现其中音视频解封装功能。 封装格式 封装格式(也叫容器)就是将已经编码压缩好的视频流、音频流及字幕按照一定的…
-
ffmpeg实现慢直播技术的应用
2020年2月份,还记得火神山与雷神山医院在短短72小时之内建成并迅速投入到使用吗?这让全世界的人民都见识了什么叫做中国速度。而当时火神山与雷神山医院的建设过程也实时的在互联网平台…
-
微软AR/VR专利提出根据环境光来渲染混合现实对象
增强现实可以通过透明显示器将计算机生成内容叠加到物理环境的感知视图。所述显示器允许来自物理环境通过并达到眼睛。但是,来自物理环境的光线具有颜色组成、空间变化对比度和/或亮度特性,并…
-
OpenGL ES之多目标渲染(MRT)
今天给大家介绍一个OpenGL ES 3.0中的新特性,多渲染目标(Multiple Render Target)。 所谓的多渲染目标就是指将片元着色器中的输出对应到多个纹理上了,…
-
详解机器视觉软件开发SDK
SDK 就是 Software Development Kit 的缩写,中文意思就是“软件开发工具包”。 这是一个覆盖面相当广泛的名词,可以这么说:辅助开发某一类软件的相关文档、范…
-
AVS3:高级运动向量表达UMVE
UMVE(Ultimate motion vector expression)高级运动向量表达是AVS3中新增的技术,由三星公司提出,用于为skip和direct模式构建MVP。U…
-
使用 YOLO 进行目标检测:如何提取人物图像
YOLO(You Only Look Once)是一种流行的用于对象检测的开源神经网络模型。在这篇文章中,我们将解释如何使用 YOLO 提取一堆人(或至少一个人)的图像。 首先,我…
-
基于多因素解耦的高表现力语音合成 | ICASSP2023
人类语音是极富表现力的,包括语调、重读、风格、情感的各种表达。表现力语音合成(Expressive Speech Synthesis)的目标就是准确的表达出语音中的各种表现力因素。…
-
构建云边端一体的分布式云架构,软硬结合驱动边缘计算创新场景
本文整理自 2022 年 12 月的智算峰会 · 智算技术分论坛上的同名主题分享。边缘计算正在向分布式云演进,百度智能云如何构建云边端一体的分布式云架构,其中的关键路径、技术挑战、…
-
单声道听觉中的声音方向估计
在周围环境中定位声音的能力是人耳的一个显着特征。通常,听力良好的人使用双耳来检测和解释听觉线索。每只耳朵的声音响度或到达时间的差异为我们提供了有关声源位置和方向的重要信息。然而有趣…