技术文章
-
webrtc之rtp协议(二): 封装H264
Webrtc在对媒体编码H264进行rtp封装,在RFC6184有详细解释。本文介绍:rtp如何封装H264和代码实现。
-
噪声增强 CAM(连续自回归模型):推进实时音频生成
自回归模型(Autoregressive models)用于生成离散标记序列。在该方法中,下一个标记由给定序列中的前一个标记决定。最近的研究表明,自回归生成连续嵌入序列也是可行的。…
-
Connected in 3D | 与Marc Petit探讨实时3D的变革力量
摘要: 在本期《3D 连接:实时解决方案与数字孪生》播客中,Ashley Crowder与Epic Games前副总裁兼Unreal Engine总经理Marc Petit进行访谈…
-
视频播放卡顿问题的分析和解决丨音视频实战经验
1、原因和解决思路 首先得理清楚视频播放过程中卡顿的根本原因: 我们这里来探讨一下如何从缓冲策略上来做优化。 缓冲策略设计需要考虑以下核心要素: 这些都需要在架构设计中体现出来。因…
-
多播ABR是直播的未来吗?能挽救保罗与泰森之战吗
当 Netflix 为创纪录的 6500 万同时在线观众播放保罗与泰森的比赛时,并非一帆风顺。许多观众因缓冲、卡顿和音频同步问题而感到沮丧。与许多其他供应商一样,流媒体技术领域的主…
-
ZipNN:一种针对神经网络的新型无损压缩方法
大型语言模型 (LLM) 的快速发展暴露了模型部署和通信方面的关键基础设施挑战。随着模型规模和复杂性的扩大,它们会遇到严重的存储、内存和网络带宽瓶颈。模型大小的指数增长带来了计算和…
-
Google DeepMind 发布 PaliGemma 2:全新开放式视觉语言模型系列(3B、10B 和 28B)
视觉语言模型 (VLM) 已经取得了长足的进步,但在有效推广到不同任务方面,它们仍然面临重大挑战。这些模型通常难以处理各种输入数据类型,例如各种分辨率的图像或需要精细理解的文本提示…
-
通义语音处理技术ClearerVoice-Studio
随着语音技术的普及,语音质量已成为人们关注的焦点。环境噪声、混响、设备拾音等问题,常常使语音质量和可懂度大打折扣。无论是录制清晰语音却因周围环境嘈杂充满噪声,还是在地铁、餐厅等喧闹…
-
沉浸式音频第二部分:为下一代声音混音
几十年来,混音控制台不断适应专业音响的发展,以容纳更多的输入,这主要是由音乐制作推动的;当磁带的容量在 20 世纪 90 年代达到 48 个音轨的最大值,录音转到(理论上)无限的虚…
-
沉浸式音频第 1 部分:专注于捕捉的工具包
有关广播沉浸式音频的讨论往往集中在输出方面:主要是扬声器的数量和位置,尤其是头顶的四个扬声器。在美国,杜比全景声(Dolby Atmos)是主流的沉浸式音频格式,这通常已成定局。然…
-
对齐人类主观偏好的图像质量评价方法 | 火山引擎论文入选国际会议ACM MM’24
2024年10月28日至11月1日,ACM Multimedia(ACM MM) 2024在澳大利亚墨尔本召开,该会议是中国计算机学会(CCF)推荐的多媒体领域的A类国际学术会议。…
-
亚马逊推出 Amazon Nova:新一代 SOTA 基础模型,可提供高级智能以及价格与性能的良好平衡
人工智能和机器学习的进步为各行各业的企业带来了新功能。从文本生成到视频合成,现代人工智能模型正在改变组织的运营和创新方式。然而,像 GPT-4 和 Llama 这样的大型基础模型在…
-
OpenVidu 3.0.0 正式发布,将使实时应用更高效、性能更强、更可靠安全
OpenVidu 3.0.0 从测试版到全面上市标志着近两年前开始的旅程的结束。当时,OpenVidu 团队决定彻底改变平台的底层技术和架构,以提供实时媒体领域的最新进展。 以下内…
-
视频编解码算法优化的三大法宝:移植,调参和测试
视频编解码的(软件)算法优化,大多时候是工程开发。 个人觉得,编解码算法,尤其编码器的优化主要依靠三个法宝,它们分别是:移植,调参和测试。 第一个法宝是移植。可以是从A编码器(标准…
-
如何将 WebRTC Web应用无缝集成到 Flutter WebView 中
WebRTC (Web Real-Time Communication)是一个开源框架和协议套件,可实现浏览器、移动应用程序或其他设备之间的实时点对点通信。它主要用于音频/视频通话…
-
Meta AI 发布 Llama Guard 3-1B-INT4:用于人机对话的紧凑型高性能 AI 调节模型
生成式人工智能系统改变了人类与技术的互动方式,提供了突破性的自然语言处理和内容生成功能。然而,这些系统也存在重大风险,特别是在生成不安全或违反政策的内容时。应对这一挑战需要先进的审…
-
了解 VoIP 多编解码器转码
VoIP 多编解码器转码可根据 VoIP 网络条件的变化切换编解码器,并在此过程中避免编码或格式不匹配导致掉线或低质量视频。这项技术在保持企业级视听质量的同时,还能优化带宽。 什么…
-
什么是 VoIP 编解码器?VoIP 编解码器详解
高质量 VoIP 通话的关键在于正确的编解码器。本文探索常见的编解码器、它们的功能和潜在缺点,为 VoIP 优化选择正确的编解码器。 VoIP 让用户通过互联网拨打电话,而不是传统…
-
FFmpeg:在 MacOS 上预处理截屏视频的更好选择
分享如何利用 FFmpeg 在 MacOS 上预处理截屏视频。 为什么使用命令行工具? 在 MacOS 上安装 FFmpeg 剪辑视频中的部分内容 公平地说,QuickTime具有…
-
Composio 推出 AgentAuth:专为 AI 代理设计的综合身份验证解决方案
构建与各种服务交互的 AI 代理(AI agent)面临重大挑战,特别是在管理身份验证方面。开发人员经常面临为 Gmail 设置 OAuth 流程、处理 Linear 等平台的 A…