技术文章
-
FreestyleNet:自由式布局到图像生成 | CVPR 2023
本工作是由上海交通大学宋利教授带领的Medialab实验室与新加坡管理大学、南安普顿大学合作产出,并被CVPR 2023录用。本文提出了一个基于diffusion model的框架…
-
开源 SIP 服务器 kamailio 核心配置文件cfg
Kamailio的配置文件是一个文本文件,通常命名为”kamailio.cfg”。它包含了Kamailio的配置信息和路由规则,用于控制Kamailio的呼…
-
苹果 AirTag 新专利曝光:可搭配 HMD 实现全身运动追踪
苹果于 2021 年 4 月首次推出“AirTags”。在近日苹果新曝光的专利中,其正在开发一种新型的 AirTag,苹果简单地将其描述为“可穿戴标签”,它可以与&nbs…
-
WebRTC RTP H.264 封包与解包
再谈RTP 协议 我们首先了解一下 RTP H.264 相关的 RFC,下面的内容是对两篇 RFC 的总结:RTP: A Transport Protocol for Real-T…
-
WebRTC 音频设备模块 ADM
我真正接触 WebRTC 的 ADM 是在做 iOS 混音的时候,iOS 的音频采集、播放之前没有做过,所以想着从 WebRTC 的音频采集播放代码里借鉴一下 AudioUnit …
-
在线 KTV 实时打分功能,音高线提取精确率高达 99%
当我们对音乐的体验不再止步于单纯的演唱与倾听,对音乐演唱及互动反馈有了更多的需求时, KTV 打分功能便应运而生。 传统的线下 KTV,通常会用在 KTV 打分系统中预先存储好每首…
-
MetaAI发布语音识别错误率是OpenAI的Whisper模型的一半且支持1107种语言的语音模型:MMS
今天,Meta的首席AI科学家Yann LeCun在推特上宣布了MetaAI的最新研究成果:MMS,一个支持1107种语言的自动语音识别模型和语音合成模型,该模型自动语音识别的单词…
-
人脑启示录:AGI能力演进与未来发展趋势
2023年4月28日,中共中央政治局会议提出,要重视通用人工智能发展,营造创新生态,重视防范风险。通用人工智能(AGI)终极目标是到达人类的智能水平,具备理解、学习、推理和创新的能…
-
嵌入式音视频开发面试过程遇到的问题!
今天继续给大家分享音视频面试过程会被常问到的一些问题! 面试的具体题目 1、说一下播放器的设计过程 这里的话主要分以下几步完成: 开启一个线程进行解封装操作 , 这包括:读取音频、…
-
实时互动下视频 QoE 端到端轻量化网络建模
在实时视频互动中,影响观众对视频体验的有较多且复杂的因素,包括:画质、流畅度以及与其耦合的观看设备等。传统客观算法会利用网络传输或编解码参数拟合接收端人的感知体验,或者使用图像质量…
-
uniapp音视频通话SDK接入指南(uniapp音视频开发系列2)
本文分享即构uniapp音视频SDK接入指南。即构 uni-app SDK 是一个基于 ZegoExpressEngine 原生 Android 及 iOS SDK 的 uni-a…
-
探索标清流媒体直播: 标清流媒体的优点和缺点
SD Live Streaming代表标清直播,既有优点也有缺点。从积极的方面来看,标清流媒体与各种设备兼容,可以为广大观众所用。它需要更少的带宽,导致更快的加载时间和更少的缓冲。…
-
在Chrome、Firefox、Edge和其他iOS上的WebRTC
从iOS 14.3开始,现在可以使用Chrome或替代Safari的WebRTC兼容浏览器,与iPad或iPhone进行音频和视频通话。这是一个伟大的改进,将帮助我们在移动设备上构…
-
如何实现音视频录制和RTMP直播推拉流
音视频录制 1、录音 通过条件编译识别pc或者mac: 根据short_name寻找自己的采集图像设备,short_name可以是硬件名称或编码格式h264、aac等。以下是简单的…
-
视频流媒体中如何个性化和负责任的使用数据
个性化是一个成功的流媒体视频服务的基石之一。它提供了显著的用户利益,提高了观众在每个接触点的体验。但是,有效的个性化可能需要大量的数据,只有通过访问和分析关于观众及其使用习惯的大量…
-
IM专题:模型分析(3)—读写扩散模型
读写扩散模型,即读扩散和写扩散模型; 读扩散,也叫拉取模型,描述对数据进行读取操作时,有更多的读取动作; 写扩散,也叫推送模型,描述对数据进行写入操作时,有更多的写入动作。 IM …
-
OpenGL 转场特效都是怎么实现的
前言 转场效果在视频编辑工具中最为常见,在两段视频或图像之间增加一个「过渡」的效果,可以让整个过程更佳柔滑自然。常见的转场如渐变过渡、旋转、擦除等(下图为 iMovie 自带转场)…
-
音视频编解码–多媒体格式系列开篇
前面一个系列,我们介绍了图像的编解码和文件格式,在接下来的系列中,我们将会涵盖多种音视频文件和编码格式,包括但不限于MP4、AVI、MKV、H.264、AAC、MP3等。通过深入了…
-
SRS的vhost概述及示例
vhost概述 Vhost(Virtual Host)就是虚拟域,用来隔离客户或业务。 Vhost的主要应用场景包括: 总结:vhost作为应用配置的单元,能隔离客户,应用不同的配…
-
媒体传输协议的演进与未来
音视频应用近年来呈现出迅猛的发展趋势,成为互联网流量的主要载体,其玩法丰富,形态多样,众多繁杂的媒体传输协议也应运而生。LiveVideoStackCon 2022北京站邀请到快手…