技术文章

实时音视频

音视频编解码WebP格式

WebP 是一种由 Google 开发的图像格式，旨在提供比传统 PNG 和 JPEG 格式更高效的压缩算法。它可以在保持很好的视觉质量的同时减小文件大小，从而加快图像加载速度并降…

编解码
2023年5月15日
技术文章

掩码语言模型(MLM)的加权采样策略 | ICASSP2023

本次分享阿里巴巴达摩院语音实验室、新南威尔士大学与香港科技大学（广州）等在ICASSP2023会议发表的论文《Weighted Sampling for Masked Langua…

音频技术
2023年5月15日
技术文章

DCVC-DC 多样化上下文的深度视频压缩 | CVPR 2023

本文基于深度视频压缩模型 DCVC 的上下文条件编码框架，在时域和空域中挖掘更加多样化的上下文信息，提出的模型 DCVC-DC 达到了 SOTA 性能。论文标题：Neural V…

视频技术
2023年5月15日
技术文章

语音鉴伪&说话人识别

随着语音处理技术的不断提升，伪造语音的身影在社会生活中出现的更加频繁，一方面语音提醒、语音解锁以及短视频配音等自动化语音技术极大的丰富了人们业余生活，但是随之而来的滥用问题也给生活…

音频技术
2023年5月15日
技术文章

SRTP 协议是什么？SRTP 协议格式及加密介绍

SRTP协议是什么 SRTP，即安全实时传输协议(Secure Real-time Transport Protocol)，是在实时传输协议(Real-time Transport…

RTC观主
2023年5月15日
技术文章

RTCP协议之SR和RR简介

RTCP：实时传输控制协议（Real Time Transport Control Protocol），主要是用来反馈音视频通信时的质量。常用的RTCP 类型: 包类型缩写作…

RTC观主
2023年5月15日
WebRTC

WebRTC NACK 机制，Mediasoup对NACK的处理

由于webrtc所用的rtp协议底层是基于udp传输，所以并不能保证数据的可靠性。在发生丢包时，为了保证音视频的质量需要进行重传，而nack机制就是用来处理重传逻辑的，需要注意一点…

webrtc学习和实践
2023年5月15日
实时音视频

音视频开发入门：音频基础

什么是声音介质振动在听觉系统中产生的反应。是一种波。因为是一种波，所以我们可以用频率、振幅等描述。频率与振幅有两个基本的物理属性：频率与振幅。声音的振幅就是音量，也叫作响度，…

RTC观主
2023年5月12日
技术文章

在OpenCV中使用Canny边缘检测

边缘检测是非常常见和广泛使用的图像处理，对于许多不同的计算机视觉应用非常必要，如数据提取，图像分割，在更细粒度的特征提取和模式识别中。它降低了图像中的噪声和细节数量，但保留了图像的…

图像处理
2023年5月12日
技术文章

Omdia观察：电信运营商需要将边缘计算引入网络实现差异化

来自市场研究公司Omdia的最新报告写到，2023年2月14日，诺基亚和Kyndryl宣布将在移动专网和边缘计算方面的合作延长三年，重点关注工业4.0解决方案。这种关系的更新只是网…

RTE基础设施
2023年5月12日
WebRTC

ChatGPT遇上WebRTC：生成式AI对实时通信意味着什么

ChatGPT正在改变计算，并作为一种延伸，改变我们与机器的互动方式。下面是它将如何影响WebRTC。 ChatGPT 成为所有互联网应用程序中增长率最高的服务，在推出的头两个月内…

RTC观主
2023年5月11日
技术文章

离线DRM：在离线环境下受DRM保护的内容

当今很大一部分观众也从广播电视转向观看基于互联网的节目，并通过互联网交付（OTT）。然而，当互联网无法使用，流媒体变得不可能时，该怎么办？这就是离线DRM技术与受DRM保护的内容…

视频技术
2023年5月11日
技术文章

Metal 和 OpenGL ES 的差异，快速入门 Metal 开发

本文介绍Metal和Metal Shader Language，以及Metal和OpenGL ES的差异性，也是实现入门教程的心得总结。 Metal Metal 是一个和 Open…

字节流动
2023年5月11日
技术文章

语音合成模型NaturalSpeech 2：只需几秒提示语音即可定制语音和歌声

编者按：如果问华语乐坛近期产量最高的歌手是谁，“AI 孙燕姿”一定有姓名。歌迷们先用歌手的音色训练 AI，再通过模型将其他歌曲转换成以歌手音色“翻唱”的歌曲。语音合成技术是“AI …

音频技术
2023年5月11日
实时音视频

RTC 体验优化的“极值”度量与应用

随着线上互动需求的增加，直播连麦、语音/视频聊天的应用越来越广泛。我们一直在说“追求用户的极致体验”，但是体验是一个抽象的概念，很难量化和统计。如何从用户的行为中得到所在场景的优化…

实时互动
2023年5月11日
技术文章

基于块的内容自适应视频编码 (CB-CAE)，用于高质量和高速转码应用

高速转码是指在不牺牲视频质量的情况下快速高效地处理视频内容。视频处理工作流程，包括转码、打包和CDN传输，是许多应用中最耗时的工作流程之一。高速转码解决了这个问题，使视频处理工作…

视频技术
2023年5月10日
技术文章

10分钟了解图像分割方法及原理

导读：本文介绍了图像分割领域的研究现状，对图像分割方法进行了系统性梳理。首先，介绍了五类传统的图像分割方法及其基本原理；然后，介绍了经典的基于深度学习的图像分割方法；最后，总结了传…

图像处理
2023年5月10日
技术文章

基于图神经网络的环状RNA生物标志物筛选预测算法

研究意义环状RNA(circular RNA, circRNA)在人类复杂疾病发病机制和许多重要生物学过程中发挥不可或缺的作用。确定环状 RNA与疾病之间关联对于复杂人类疾病的诊…

图像处理
2023年5月10日
技术文章

AAAI 2023 Oral | 字节提出非对称图像重采样模型，JPEG、WebP上抗压缩性能领先 SOTA

字节跳动-火山引擎多媒体实验室针对图像重采样模型面向图像压缩的鲁棒性，设计了一种非对称的可逆重采样框架，提出新型图像重采样模型SAIN。图像重采样 (Image Rescalin…

大厂Animal
2023年5月10日
技术文章

5G网络性能更差是怎么回事？

到目前为止，手机行业推出5G网络已有三、四年的历史。虽然业界仍在寻找能够巩固5G在蜂窝技术最高梯队中的地位的杀手级用例，但从本质上讲，这一代人正在做它应该做的事情——在某种程度上。…

假装是大佬
2023年5月10日