技术文章
-
WebRTC 实战: QT for Windows 多人音视频通话
在经过前面几篇文章对 WebRTC 的描述,相信已经不需再过多对它介绍了。前面几篇文章我们实现了 Web 、Android 端的音视频通话项目,该篇我们使用 QT UI 框架搭建…
-
微软为AR/VR空间音频提出了一种声音参数化建模
实时声学效果的建模和渲染是非常密集的计算。如果没有复杂和昂贵的硬件,就很难呈现出真实的声学效果。对真实或虚拟场景的声学特性进行建模,同时允许声源和听者的移动,这是一个困难的问题,特…
-
基于星链网络的实时多媒体服务:现实检测 | NOSSDAV 2023
最近,低地球轨道卫星网络(LSN)被认为是未来6G通信基础设施中高带宽和低延迟全球覆盖的关键和有前途的组成部分。SpaceX 的 Starlink 可以说是迄今为止最大、最可操作的…
-
具有非协同步长的噪声鲁棒分布式资源分配算法 | 吴温文,朱善迎,刘帅,关新平
研究意义 资源分配问题在智能电网的经济调度、移动边缘计算任务卸载和资源分配、机器人集群任务分配等场景中广泛应用。该问题通过对网络中有限资源的优化配置,在满足网络整体供需平衡需求、各…
-
HTTP网络协议演进史
HTTP(HyperText Transfer Protocol)是当今互联网上应用最为广泛的一种网络协议,是万维网(World Wide Web)数据通信的的基础,最初设计只是为…
-
D-NeRV:面向不同视频的可扩展神经表示 | CVPR 2023
这篇文章主要介绍了一种名为D-NeRV的框架。该框架将每个视频解耦为特定的视觉内容和运动信息,并分别对其进行建模。此外,该框架引入了时间推理和任务导向流等技术,以更好地处理视频中的…
-
基于Speech框架实现APP智能语音交互的解决方案
使用手机的语音框架可以识别录制或现场音频中的口语单词,系统的键盘的听写也支持使用语音识别将音频内容翻译成文本。本文透过和家亲上的实践应用案例,介绍基于Speech框架实现APP智能…
-
Make-It-3D: 利用扩散先验从单张图像创建高保真三维图像
在本文中,研究者的目标是实现从一个真实或人工生成的单张图像中创建高保真度的3D内容。该方法可以为像Stable Diffusion这样的前沿2D生成模型创建的幻想图像带来3D效果。…
-
神经重塑:单张图像人物体型编辑 | 陈贝佳,周昆,郑友怡等
研究意义 对单张图片中人物体型进行具有语义的编辑,例如增加身高、降低体重等,已经成为图像编辑领域的新兴话题。 然而,这个问题在本质上区别于简单的图像缩放;因为人物体型变形实际上是在…
-
WebRTC Demo 在线网站(WebRTC Demo GitHub)
为方便开发者体验和快速实现 WebRTC 的音视频通话或低延迟直播等功能,我们在 GitHub 及 Gitee 提供了 WebRTC Demo 在线网页和示例源码,下面我们来了解一…
-
混响的基础知识
混响可以说是现代录音中最常用的效果之一,也可能是最容易被误解的效果之一。考虑到这样一个事实是很有趣的:就像许多事情一样,他们花了几十年的时间完善不同的方法来模仿自然界中自然发生的事…
-
Android 和 iOS 如何关闭 WebRTC PeerConnections
WebRTC 是一项令人着迷的技术,为网络带来了实时通信功能。虽然 WebRTC 相对易于使用,但它有许多复杂之处,如果不正确理解,可能会导致问题。其中一个问题是关闭 PeerCo…
-
One-2-3-45:从单张图像生成3D形状
简介:本方法以任意物体的单幅图像作为输入,在单次前传中生成完整的三维网格和纹理。给定一张单幅图像,本工作首先使用一个基于视角为条件的2D扩散模型(Zero123)为输入视角生成多视…
-
KITE:一种用于语义操作的人工智能框架,使用关键点作为视觉基础和精确动作推理的表示
随着人工智能领域的不断进步,人工智能技术开始与机器人技术相结合。从计算机视觉和自然语言处理到边缘计算,人工智能正在与机器人技术相集成,以开发有意义且有效的解决方案。人工智能机器人是…
-
Ubuntu22.04 编译 x86 FFmpeg 6.0
本文介绍在 Ubuntu22.04 下编译 x86 版本的 FFmpeg 6.0。 Setp1 建立目录 在希望存放项目的目录下创建三个文件夹,分别是: 可以直接在GNOME桌面中…
-
FFmpeg实时推流&MQTT实时控制推流启动关闭
FFmpeg 是一个开源的自由软件,它包含了音频和视频多种格式的录制、转换、流媒体功能,同时也是一个音频与视频格式转换库(Library),许多开源的工具都是基于 FFmpeg 构…
-
音频文件格式–MP3 代码走读
上一篇《音频格式–MP3格式介绍》我们大概了解了MP3的发展历程,文件结构和关键点等内容,本文我们在FFMPEG中进行代码走读,更加全面和深入的学习和掌握MP3。 FFPlay&n…
-
Shader 编程基本图形:圆和曲线
由于主流的 Shader 编程网站,如 ShaderToy, gl-transitions 都是基于 GLSL 开发 Shader ,加上 MSL 和 GLSL 语法上差别不大,后…
-
基于交互式注意力的语音情感识别联合网络 | IEEE ICME 2023论文
研究背景:语音情感识别(Speech Emotion Recognition,SER)指通过让机器检测和识别人类语音信号中如喜悦、愤怒、悲伤、惊讶、恐惧等多种情感类别。为了适用于如…
-
用户跟踪及人车互联功能加入车载音频系统 | 苹果专利
近日,美国专利商标局公布了苹果公司与Project Titan相关的专利申请,该申请专注于将用户跟踪头枕音频控件和扬声器集成到未来的汽车座椅中。 苹果在其专利背景中指出,声学设备(…