技术文章
-
OpenGL Shader 常用的二维矩阵变换
2D Matrices 二维矩阵 平移 之前的章节我们学习了如何制作一些图形 – 而如何移动它们的技巧则是借助移动它们自身的参考坐标系。我们只需要给 st 变量加上一…
-
PPIO王闻宇:深度解读苹果首款MR眼镜及其对元宇宙技术路线的启示
图片来源于苹果官网 前言:在过去的一系列文章中,我一直将元宇宙视为我们这个时代的”登月工程”。为了实现真正的全身心沉浸式体验,未来必须有多项关键技术取得突破…
-
让文物“活”起来,火山引擎视频云三维重建技术揭秘
中国历史悠久,文化底蕴深厚,文物数目众多,文物作为前人智慧的结晶,其文献价值不言而喻。古籍是记录中华文明的重要载体,也是流传至今的宝贵文化遗产,文物保护也是一项长期重要的基础工作。…
-
Bark:一种GPT风格的TTS
大家知道,我们一直在探索在FreeSWITCH里实现ASR和TTS的各种方案。这一次,我们遇到了Bark。 一、Bark介绍 Bark是一个GPT风格的模型。因此,它能在生成音频过…
-
面向流媒体的确定时延传输:从QUIC出发,走向未来
QUIC(Quick UDP Internet Connections)是Google设计的一套可靠UDP传输协议,旨在为HTTP提供一个安全、可靠、高效和低延时的通信基础。QUI…
-
Align your Latents:高分辨率视频合成与潜在扩散模型 | CVPR2023
潜在扩散模型 (LDM) 可实现高质量图像合成,同时通过在压缩的低维潜在空间中训练扩散模型来减少计算量。将 LDM 应用于高分辨率视频生成是一项特别耗费资源的任务。本文首先仅在图像…
-
如何定位分析视频异常画面
视频典型画面不正常主要包含画面卡顿、画面模糊、画面不显示、画面花屏这 4 类问题。本文主要介绍的是画面花屏的情况,这里的画面花屏包含了花屏、闪屏、绿屏、黑屏。视频花屏是多媒体工程师…
-
《三维声编解码及渲染》行业标准解读
2023年2月1日,国家广播电视总局发布了广播电视和网络视听行业标准《三维声编解码及渲染》,目前,这项标准完成了端到端的产业布局。此标准是三维声行业标准体系里面最重要的部分,也是最…
-
SIP协议如何从网卡一步步解析进入到SIP应用服务器
SIP协议是基于TCP/IP协议栈的,它是通过TCP/IP协议栈的层层解析和处理,才能被正确地解析出来。以下是SIP协议从TCP/IP协议栈中解析出来的过程: 1.数据链路层:当S…
-
回声消除是什么意思?回声消除的工作原理
在当今高度连接的世界中,清晰的实时通信比以往任何时候都更加重要。在远程团队会议和会议期间,没有什么比回声更能打断对话了。当说话者听到他们的声音回荡到他们身上时,可能会分散注意力,甚…
-
分布式集群转码系统的设计与实现
视音频转码系统大量应用在广播电视的应用系统中,尤其在 采、编、播、存等各个环节,关系到广播电视的生产和播出,其重要性不言而喻。随着开源技术的普及以及开发工具、开发语言的良好集成性和…
-
浅谈“自由视角”技术 及其在体育赛事转播中的应用
本文主要介绍了“自由视角”技术和“VR 全景” 技术在采集、传输、呈现方式等方面的区别,对其在体育赛事制作和转播中的实际应用和影响进行了探讨。 来源:《现代电视技术》作者:北京体育…
-
使用 WebRTC 进行在线教育的好处及应用场景
WebRTC(Web Real-Time Communication)是一项重塑在线教育的突破性技术。凭借 Web 浏览器中的实时通信功能,它无需额外下载或插件即可实现无缝视频通话…
-
WebRTC 中的 ICE 和 SDP
随着远程工作、视频会议和实时流媒体的兴起,对实时通信技术的需求呈指数级增长。WebRTC,即 Web 实时通信,是一种非常强大的技术,可促进 Internet 上设备之间的实时通信…
-
GLIGEN: 开放集基于定位语言的图像生成 | CVPR2023
大规模的文本到图像扩散模型已经取得了惊人的进步。然而,现状是只使用文本输入作为条件,这可能会阻碍可控性。GLIGEN,是一种基于定位语言的图像生成,在现有的预训练文本到图像扩散模型…
-
微软AR/MR专利分享通过手势+眼睛注视确定用户交互意图
对于AR,确定用户意图是一个问题。在名为“Multi-factor intention determination for augmented reality (ar) envir…
-
百度视频质量评测的实践之路
视频编解码技术日新月异,新的编解码技术赋予视频业务新的应用场景和新的用户视听体验。同时,视频作为带宽消耗大户,如何在视听体验和视频带宽之间取得最优的平衡是一个永恒的话题。视频质量评…
-
XR沉浸式虚拟演播室的技术分析
本文介绍了辽宁广播电视台根据自身需要设计的XR沉浸式虚拟演播室,该演播室依据XR虚拟技术的工作原理进行系统设备搭建,利用多维LED屏幕和虚拟扩展画面相结合的技术制作方式,为节目内容…
-
Transformer技术原理综述
2022年12月,OpenAI的大型语言生成模型ChatGPT刷爆网络,它能胜任高情商对话、生成代码、构思剧本和小说等多个场景,将人机对话推向新的高度,让网友们不禁怀疑ChatGP…
-
SmartBrush:基于扩散模型的文本和形状引导目标补全 | CVPR2023
通用的图像补全旨在通过借用周围的信息来填充损坏的图像,这几乎不会产生新颖的内容。相比之下,多模态的图像补全为需要填补的内容提供了更灵活和有用的控制,例如,文本提示可以用来描述具有更…