技术文章

实时音视频

ffmpeg实现慢直播技术的应用

2020年2月份，还记得火神山与雷神山医院在短短72小时之内建成并迅速投入到使用吗？这让全世界的人民都见识了什么叫做中国速度。而当时火神山与雷神山医院的建设过程也实时的在互联网平台…

直播技术
2023年3月29日
技术文章

微软AR/VR专利提出根据环境光来渲染混合现实对象

增强现实可以通过透明显示器将计算机生成内容叠加到物理环境的感知视图。所述显示器允许来自物理环境通过并达到眼睛。但是，来自物理环境的光线具有颜色组成、空间变化对比度和/或亮度特性，并…

虚拟现实
2023年3月29日
技术文章

OpenGL ES之多目标渲染（MRT）

今天给大家介绍一个OpenGL ES 3.0中的新特性，多渲染目标（Multiple Render Target）。所谓的多渲染目标就是指将片元着色器中的输出对应到多个纹理上了，…

思想觉悟
2023年3月29日
技术文章

详解机器视觉软件开发SDK

SDK 就是 Software Development Kit 的缩写，中文意思就是“软件开发工具包”。这是一个覆盖面相当广泛的名词，可以这么说：辅助开发某一类软件的相关文档、范…

图像处理
2023年3月29日
技术文章

AVS3:高级运动向量表达UMVE

UMVE(Ultimate motion vector expression)高级运动向量表达是AVS3中新增的技术，由三星公司提出，用于为skip和direct模式构建MVP。U…

编解码
2023年3月29日
技术文章

使用 YOLO 进行目标检测：如何提取人物图像

YOLO（You Only Look Once）是一种流行的用于对象检测的开源神经网络模型。在这篇文章中，我们将解释如何使用 YOLO 提取一堆人（或至少一个人）的图像。首先，我…

图像处理
2023年3月29日
技术文章

基于多因素解耦的高表现力语音合成 | ICASSP2023

人类语音是极富表现力的，包括语调、重读、风格、情感的各种表达。表现力语音合成（Expressive Speech Synthesis）的目标就是准确的表达出语音中的各种表现力因素。…

音频技术
2023年3月29日
技术文章

构建云边端一体的分布式云架构，软硬结合驱动边缘计算创新场景

本文整理自 2022 年 12 月的智算峰会 · 智算技术分论坛上的同名主题分享。边缘计算正在向分布式云演进，百度智能云如何构建云边端一体的分布式云架构，其中的关键路径、技术挑战、…

大厂Animal
2023年3月29日
技术文章

单声道听觉中的声音方向估计

在周围环境中定位声音的能力是人耳的一个显着特征。通常，听力良好的人使用双耳来检测和解释听觉线索。每只耳朵的声音响度或到达时间的差异为我们提供了有关声源位置和方向的重要信息。然而有趣…

音频技术
2023年3月29日
实时音视频

什么是延迟?如何在直播中实现低延迟

什么是延迟？简单来说：延迟或滞后就是延迟。当你进行流媒体直播时，你正在捕捉视频并通过互联网广播给你的观众。延迟是指在下列情况下的时间量：你的相机记录你的视频和你的观众能…

直播技术
2023年3月28日
技术文章

5G注册管理流程和安全分析

一、概述本文先介绍了5G环境下用户注册管理流程中的初始化注册场景，再基于该场景中的注册过程，分析了其可能存在的两个威胁场景，在UERANSIM+free5gc的模拟环境中进行了复…

RTE基础设施
2023年3月28日
WebRTC

WebRTC 应用的 QA 和测试的最佳实践

在 WebRTC.ventures，我们总是说，“唯一比构建 WebRTC 应用程序更难的是测试它。” 为什么这是真的？这篇文章详细介绍了 QA 测试人员在测试 WebRTC 应用…

webrtc学习和实践
2023年3月28日
技术文章

Nuxt框架服务端渲染

什么是Nuxt.js Nuxt.js是通用的VUE的一个SSR框架（服务器端渲染）。官方介绍是通过对客户端/服务端基础框架的抽象组织，Nuxt.js主要关注的应用的UI渲染。什么…

大厂Animal
2023年3月28日
技术文章

Vimeo的转码设施升级之旅

编者按：随着Google Cloud等基础设施更加成熟，通过使用更加廉价的竞价实例，可以大幅的降低成本。通过开发新的基础设施管理平台——Falkor，Vimeo的运营成本也大幅降低…

大厂Animal
2023年3月28日
技术文章

TEA-PSE 3.0: 深度噪声抑制（DNS）竞赛个性化语音增强冠军方案解读 |ICASSP2023

实时通信 (RTC) 在我们的日常生活中变得不可或缺，诸如腾讯会议在内的语音RTC应用已经成为我们日常使用的在线交流工具。然而在通话过程中，语音质量受到背景噪声、混响、干扰说话人等…

音频技术
2023年3月28日
即时通讯

客服IM消息列表虚拟滚动技术实践｜得物技术

1 场景分析在IM系统中，核心事件都是围绕着“聊天”这个主题展开的，在聊天的过程中，获悉用户的需求，再通过系统集成的各种工具，帮助用户完成诉求；“聊天”在IM业务中就是“会话消息…

IM开发老王
2023年3月27日
技术文章

OTN网络算力接入时延圈绘制展示研究和实践

摘要：研究基于OTN网络进行算力接入时延圈绘制展示的方法并在现网部署。算网大脑通过向OTN控制器查询获取以指定机房为中心，小于等于指定时延指标的所有机房节点的信息。基于这些节点的地…

RTE基础设施
2023年3月27日
技术文章

基于预训练和图网络的语音主题分类 | IEEE ICME 2023论文

研究背景：随着网络科技的不断进步，短视频的个性化推荐，会议的录音记录等相关的音频信息在我们的生活中扮演着越来越重要的作用。如何能在海量的语音信息中，准确的进行语音信息的分类和定位，…

音频技术
2023年3月27日
实时音视频

Electron 如何操作本地的音视频设备

之前的文章中提到过，安卓等移动端APP在采集音视频数据时，需要打开本地摄像头和麦克风设备。同理，桌面端应用程序在采集音视频数据时也需要依赖本地的音视频设备，今天本文的主要内容就是讨…

ZEGO即构科技
2023年3月27日
技术文章

比较人类产生的语言和 NLP 产生的语言之间的神经活动差异

自然语言处理 (NLP) 是与机器和我们之间交流的核心，NLP 研究领域长期以来一直在寻求产生人类质量的语言，确定用于衡量 NLP 生成的语言质量的信息标准将支持开发更好的 NLP…

假装是大佬
2023年3月27日