技术文章
-
在OpenCV中进行图像预处理
今天,我们进一步深入,并处理在图像处理中常用的形态学操作。形态学操作用于提取区域、边缘、形状等。 什么是形态学操作? 形态学操作是在二值图像上进行的。二值图像可能包含许多不完美之处…
-
相机APP 如何选择合适的分辨率?
影响相机画面效果的因素有很多,分辨率就是其中一个因素,1080p和720p的效果对比,画面清晰度等差别还是挺大的。 这篇文章主要分下面几点展开: 做camera效果tuning调试…
-
OpenGL ES 3.0 怎样将着色器程序二进制化
之前有位 VIP 读者提问:C++ 如何将 OpenGL ES 的着色器程序二进制(保存),然后在其他地方加载使用?现在写篇文章介绍下。 将着色器程序二进制化(Shader Pro…
-
音视频工具–Onvif设备管理器
ONVIF 设备管理器 (ODM) 是一款免费的开源软件实用程序,旨在管理符合 ONVIF 标准的网络视频设备,例如 IP 摄像机、视频编码器和网络录像机 (NVR)。ONVIF …
-
WebRTC NetEQ分析:架构和核心模块
1.NetEQ简介 NetEQ 本质上就是一个音频的 JitterBuffer(抖动缓冲器),全称是 Network Equalizer(网络均衡器), GIPS 语音引擎的两大核…
-
多模态算法在AIGC视频生成中的应用
随着抖音、快手、B站等视频平台的崛起,视频内容正占据着用户越来越多的时间。对于各个平台来说,内容视频化趋势明显。对于之家来说,也需要尽快完成在该赛道的技术工作。对于AIGC视频生成…
-
音视频领域强大的辅助工具-ffmpeg常用操作介绍
前段时间老是有人问我,有没有其他格式的视频或音频提供,愿意有偿获取,如果其对ffmpeg比较熟悉,就不会那么麻烦。经常从事流媒体领域开发和研究工作的人,ffmpeg应该是我们最常用…
-
基于有意义学习的零样本语义分割方法 | 北航刘祥龙团队
研究意义 图像语义分割是计算机视觉中最重要的分支之一,被广泛应用于许多现实世界的场景中,如地理信息系统、自动驾驶、医学图像分析等。然而,传统的语义分割方法极大地依赖于像素级标注信息…
-
音视频通信及信令SIP协议压测方法浅析
网络基础设施升级、音视频传输技术迭代、WebRTC开源等因素,驱动音视频服务时延逐渐降低,使实时音视频(RTC)技术成为炙手可热的研究方向。实时音视频业务在消费互联网领域蓬勃发展,…
-
图像压缩对视觉识别的鲁棒性分析
目前,能够分析视觉数据而不仅仅是存储数据的最先进的识别模型无一例外地基于深度学习。尽管在降低推理成本方面做出了巨大的努力,但它们对内存和计算的要求很高。而图像压缩对于促进在设备上存…
-
增强x265开源HEVC视频编码器: 降低比特率和场景变化检测的新技术
由于对带宽的要求越来越高,特别是随着更高的设备分辨率的出现,对降低视频传输比特率而不影响视觉质量的需求也在增加。HEVC视频编码标准适合解决这一问题,它能以比其前身(H.264/A…
-
OpenGL & Metal Shader 编程:GLSL 重要的内置函数
为啥要单独写一篇讲讲 GLSL 的几个常用内置函数?主要是为了避免新手在 Shader 编程中看到一些关键字,如 ceil,f ract, smoothstep 等一脸懵。 推荐一…
-
如何在 Flutter 中实现实时通信
实时通信已成为现代移动应用程序的基本要求。Flutter是一个跨平台的移动应用开发框架,为开发者提供了各种工具和库来实现实时功能。socket_io_client就说一个这样的库,…
-
使用 WHEP 和 WebRTC 在标准浏览器中预览 SRT 流
安全可靠传输协议(SRT)是互联网上点对点媒体传输的一个行业标准。今年,YouTube 宣布他们将加入 SRT 联盟,因此我们预计他们将很快为 SRT 提供支持,作为 RTMP 之…
-
WebRTC-jitterbuffer延时分析
jitterbuffer 也叫抖动缓冲区,分为jitter和buffer两部分即延时和缓冲区管理。工作在接收端,通常在播放器,主要目的是保证平滑播放。常见的抖动缓冲区分为静态抖动缓…
-
RSYS SDK – 跨平台实时系统库
Rsys简介 目前已经有很多视频电话用例,例如Instagram和Oculus,我们认为我们目前需要的是一些真正通用且可扩展的东西,以服务于所有这些不同的用例。在我们构建 RCS …
-
基于Kaldi的语音识别引擎后端架构设计
1 概述 语音识别技术,是将语音信号转换为文本内容的技术。目前比较流行的语音识别技术主要有两种。一种是基于Kaldi的传统语音识别技术,另一种是目前流行的基于深度学习模型的端到端语…
-
RTC 场景下的视频编码优化与 AI 超分结合实践
7 月 1 日下午,在北京·新云南皇冠假日酒店,由稀土掘金技术社区举办的 「稀土开发者大会2023」,网易云信视频编解码算法专家苗晋伟受邀出席【音视频技术前沿】专场演讲,他在本次大…
-
从0到1!得物如何打造通用大模型训练和推理平台
1 背景 近期,GPT大模型的发布给自然语言处理(NLP)领域带来了令人震撼的体验。随着这一事件的发生,一系列开源大模型也迅速崛起。依据一些评估机构的评估,这些开源模型大模型的表现…
-
java如何实现语音对讲通话 | 基于即构语音SDK开发
本文以 Android Java 为例,分享如何集成即构实时语音SDK,快速实现语音对讲、语音通话等功能。 即构实时语音SDK(Express SDK)是一款实时的音频互动服务产品…