技术文章
-
VoIP和多人在线游戏的演变
深入了解在线多人游戏世界,您会发现它经历了一段相当长的旅程。在高分辨率图形和复杂的游戏机制中,有一位沉默的英雄重塑了游戏体验:VoIP(基于IP的语音传输的一种语音通话技术)或叫网…
-
AVCC/HVCC 与 Annexb 码流格式相互转换丨音视频工业实战
H.264 的码流中用于解码的关键信息包括 SPS、PPS,H.265 码流中则包括 VPS、SPS 和 PPS。H.264 码流有 AVCC 和 AnnexB 两种格式,H.26…
-
Qt音视频通话示例源码体验
本文示例源码为一个桌面端跨平台的 Qt5 C++ 应用程序,同时支持 Windows/macOS/Linux 平台,示例源码中已附带了三个平台最新版本的 SDK 包,可以直接运行。…
-
什么是WebRTC数据通道?如何用WebRTC数据通道加强实时通信
WebRTC 是一项功能强大的技术,可实现网络浏览器和移动应用程序之间的实时通信。它彻底改变了我们的通信方式,使实时共享音频、视频和数据成为可能。WebRTC 最重要的功能之一是数…
-
CoDi: 利用可组合扩散实现任意组合模态的处理与生成 | NeurIPS 2023
本文作者提出了可组合扩散模型(CoDi)。这是一种新的生成模型,能够处理任意组合模态输入,如语言、图像、视频和音频,进而生成任意组合模态输出。不同于先前已有的生成式AI系统,CoD…
-
端到端语音识别中的建模单元
端到端语音识别中不同的建模单元有着不同的应用场景,本文对中英文常用的一些建模方式以及如何生成对应的标签进行总结,希望对大家有所帮助。 I. 中文建模单元 音素(phoneme) 音…
-
音视频学习–ZRTP和BZRTP
bzrtp背景 整数因子分解和有限域或椭圆曲线上的离散对数问题是支撑互联网上用于密钥建立和数字签名的大多数非对称算法的数学问题。这些问题及基于它们的算法将容易受到使用Shor算法的…
-
哈斯效应是什么意思?哈斯效应的原理和应用
哈斯效应的定义及原理 当声场中存在两个响度相同的声源发出相同的音频信号时,首先到达人耳的声源被感知为声音的唯一来源,而迟到的声音似乎被忽略掉。这一现象被称为“哈斯效应”或“优先效应…
-
客服发送一条消息背后的技术和思考|得物技术
引言 在企业客服场景中,客服发送一条消息的背后,需要考虑网络通信、前端展示、后端存储以及安全性等多个方面的技术支持,单从前端层面来说,就需要考虑到消息的显示、状态更新、稳定传输以及…
-
WebRTC:利用 JavaScript 在树莓派/服务器上释放高性能,实现 3G/4G 连接
想象一下这样的场景:你的任务是将 Raspberry Pi 或任何服务器(Linux)转换成 IP 摄像机,但有一个问题——唯一可用的连接是不可靠的 3G/4G 网络。这一挑战促使…
-
REST API 的 7 种替代方案
表述性状态传递(REST)是一种构建网络服务的架构风格和协议。它是设计网络应用程序编程接口(API)的一种流行方法,因为它强调可扩展性、简单性和可修改性。 与管理简单对象访问协议(…
-
短视频时代的 AI 图像分析 | IBC2023论文分享
IBC2023: 本技术论文介绍了一种自动制作新闻摘要视频短片的系统。 内容摘要 在短视频备受青睐的时代,广播电台一直在加强在社交网络服务(SNS)上发布广播内容概要视频的动力。因…
-
基于多核的移动设备上的节能 360 度视频流 | INFOCOM 2023
摘要:随着360度视频流在视频平台上越来越受欢迎,流媒体(下载和处理)360度视频在移动设备上消耗了大量的能源。然而,针对这个问题的研究还很少,尤其是考虑到移动架构的最新进展。通过…
-
非监督跨模态图像分割中的双网络输出可信度加权互监督学习 | 陈雅婕,杨欣,白翔
研究意义 得益于大量的标注数据,监督学习在图像语义分割任务中取得了重要进展。然而,在图像语义分割,特别是医学影像语义分割等任务中,语义标注严重依赖标注人员的专业知识,非常耗时耗力。…
-
NAT的工作原理第一部分:关于 NAT 你所不知道的一切
互联网一片混乱,其中最大的部分之一就是网络地址转换(NAT),这是一种允许多台设备共享同一网络地址的技术。在本系列文章中,我们将探讨 NAT 和 NAT 穿越。本篇文章主要介绍 N…
-
稳健有效的边缘检测的突破性方法
边缘检测是通过识别颜色或强度变化的区域来描绘场景中物体轮廓的过程,这些变化信号表明物体之间的边界。它在计算机视觉应用中非常重要,如物体识别、图像分割和特征提取。传统上,其准确性取决…
-
结合 5G 广播和 CDN 技术向移动设备高效传输视听内容 | IBC2023论文分享
IBC2023: 本技术文件全面概述了一项广泛的试验,展示了 5G 广播与 CDN 技术的尖端结合在线性广播和宽带分发方面的潜力。 内容摘要 3GPP 规范下定义的 “…
-
音视频面试题集锦 2023.10
我们在知识星球上创建的音视频技术社群关键帧的音视频开发圈已经运营了一段时间了,在这里大家可以一起交流和分享音视频技术知识和实战方案。我们会不定期整理一些音视频相关的面试题,汇集一份…
-
Qt 交叉编译工具配置教程(在嵌入式开发板运行应用程序)
# 安装的环境 ubuntu18.04 只要是Ubuntu命令都可执行。 ubuntu和虚拟机的安装教程就自己看我专栏了。 1、交叉编译工具安装 (方式1) 依次在Ub…
-
通过协同浏览和 PDF 编辑将实时电子签名添加到 WebRTC 应用程序中
本文将详细介绍如何在 WebRTC 应用程序中启用实时电子签名。 实时电子签名的前提条件 第一部分:启用 PDF 编辑 第一步是让机构员工(我们称之为 “高级用户…