技术文章
-
面向OTT的可扩展流媒体平台的关键推动因素
流媒体平台在Covid期间和之后彻底改变了娱乐业,允许用户直接通过互联网访问视频和音频内容,而不需要传统的有线电视或付费电视订阅。这种流行导致了市场上众多供应商进入流媒体业务的崛起…
-
音乐驱动数字人技术详解
本文主题为音乐驱动数字人的算法和实践。主要围绕音乐驱动体系 Music XR Maker、音乐生成数字人舞蹈、歌声驱动数字人口型、歌声驱动数字人歌唱表情四点展开。 分享嘉宾|董治 …
-
AIGC产业研究报告2023——三维生成篇
人工智能三维生成是指利用深度神经网络学习并生成物体或场景的三维模型,并在三维模型的基础上将色彩与光影赋予物体或场景使生成结果更加逼真。在应用中,生成物体或场景的三维模型称为三维建模…
-
音频品鉴与歌唱评价——音频内容理解实践
歌唱评价是K歌系统中核心技术之一。近年来,歌唱评价领域也发生着多元化和深度化的变革。本次LiveVideoStackCon 2022 北京站邀请到腾讯音乐天琴实验室高级研究员——江…
-
gstreamer开发常用的工具
gstreamer开发中,一般开发思路为:寻找命令行实现–命令行验证–将命令行集成到代码中—代码工程化。当然如果你要代码更优雅一点,可以用命令行…
-
使用 CNN 进行面部情绪识别
面部表情是人类之间交流的重要方式。 在人工智能研究中,深度学习技术已成为增强人机交互的强大工具。心理学中面部表情和情绪的分析和评估涉及评估预测个人或群体情绪的决定。 本研究旨在开发…
-
三个实际音视频开发问题!
大家好,今天给大家分享的内容是关于平时在做音频编解码会遇到的一些问题,比如说: 这三个问题是最近和同行交流的时候,大家遇到的一些问题,有些朋友一开始,没有思路去解决这种问题! 其实…
-
ZEGO 实时传译上线,提供实时语音识别和文本翻译功能
ZEGO 实时传译(ZegoRealtimeTranslation),是 ZEGO 携手智能语音行业生态服务商提供的实时语音转写及翻译服务,通过 SDK 接入后,提供将音频流实时识…
-
前端3D技术概述(计算机图形学中的3D渲染部分)
操作系统、编译原理、计算机图形学被传为程序员的三大浪漫,每个方向都易懂难深,但作为程序员对每个方向还是要有基本的认识和判断,毕竟贯穿虚拟和现实生活的桥梁是搭建在抽象之上的,这三大浪…
-
SRS流媒体服务器基本流程
SRS流媒体服务器基本流程介绍。 基本流程图 main()、domain()和run_master() 1. main函数所在文件在main/srs_main_server.cpp…
-
边缘计算安全:风险、注意事项和最佳实践
边缘计算固然有其优势,但也伴随着独特的风险和挑战。了解所有这些,以确定边缘计算是否适合您的项目。 计算系统走到哪里,安全威胁就跟到哪里。微软在 1985 年发布了 Windows,…
-
如何在 WebRTC 应用中添加一个语音机器人
语音机器人,也被称为语音助手,是一种使用自然语言处理(NLP)和文本到语音(TTS)技术的机器人,通过语音命令与用户互动。语音机器人被设计为响应口语请求,以对话方式提供信息或执行任…
-
Instruct-NeRF2NeRF: 引导并编辑NeRF
本文提出了一种通过文本来编辑 NeRF 场景的方法。给定一个 NeRF 场景及用于重建它的多视角图像,本方法利用图像条件扩散模型InstructPix2Pix对输入图像进行迭代编辑…
-
如何为 WebRTC 应用程序提供出色的体验
在WebRTC.ventures,我们相信,如果一个技术上健全的WebRTC应用不能提供积极的用户体验,那么它是不够的。我们把伟大的体验放在首位,认识到即使是最先进的应用,如果不能…
-
SRS单机模式搭建,基于阿里云ECS服务器
SRS 是一个简单、高效的实时视频服务器,支持RTMP/WebRTC/HLS/HTTP-FLV/SRT/MPEG-DASH/GB28181、Linux/Windows/MacOS、…
-
COTS实用媒体处理平台构建案例 | SMPTE Motion Imaging Journal 2023
为了在商用非专用硬件上使用来自不同供应商的元素构成可扩展的基于软件的广播系统,并避免在设施和云中的锁定,需要采用混合多云方法。作为一个案例研究,本文构建了一个可扩展的边缘平台,用于…
-
Jetson Nano 是学习 AI 边缘计算的神器
笔者从 2019 年开始使用 NVIDIA Jetson Nano 开发套件,一开始是被 NVIDIA 当时推出的 Jetbot 智能小车所吸引,这套 2,00…
-
必须要掌握的音视频编码、解码基础!
音视频为什么要编码? 音视频编码技术在音视频领域有着举足轻重的地位,这是由于音视频原始数据量较大,在传输的过程中如果不进行编码的话,则无法进行传输。比方说,一张普通的图片的大小大概…
-
视频编码测试平台CodecWar
在视频编码的研究和开发中,我们经常需要对编码器的性能进行比较,一般的做法是构建一个数据集,然后将两个编码器在同一个配置上(LD,RA,AI等)使用不同参数(CQP下一般为4个QP值…
-
通过 OTT 进行高度可扩展和冗余的直播
ZEE 重新开始了国际 T20 联赛的体育直播,在 Zee5,这是我们第一次向终端用户提供体育直播的工作。 为了确保我们在每个比赛日都能获得正确的数据流,这是一个艰难的旅程——从接…