技术文章
-
探索 OpenGL 音视频渲染技术(5):着色器
本文将以更通用的方式解释着色器,特别是 OpenGL 着色语言。着色器是用类似 C 的语言 GLSL 编写的。GLSL 专为图形使用而设计,包含专门针对向量和矩阵操作的有用功能。
-
探索 OpenGL 音视频渲染技术(4):三角形入门
OpenGL 三角形入门。在本章中,我们将简要讨论图形管道,以及如何利用它来创建漂亮的像素效果。
-
MIT 新 AI 模型实现音画同步学习:无需标注即可准确对齐视频与音频
人类天生通过视觉与听觉的关联来学习。例如,我们看到有人拉小提琴时,能意识到演奏者的动作正在产生我们听到的音乐。 麻省理工学院(MIT)等机构的研究人员开发了一种新方法,可提升人工智…
-
WebRTC音频处理模块(APM)简介
本文对WebRTC中的音频处理模块APM(Audio Module Processing)部分的框架、音频数据处理在其中进行处理的总体工作流程进行了简单的总结。
-
Qt C++ 图像处理学习路线
公众号“QT历险记” 发布了 Qt C++ 图像处理学习路线,内容包含基础学习阶段、进阶学习阶段、项目实战阶段和职业规划与就业阶段等内容。 基础学习阶段 掌握 C++ 基础 :Qt…
-
探索 OpenGL 音视频渲染技术(3):窗口入门
这个系列文章我们来介绍一位海外工程师如何探索 OpenGL 音视频渲染技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 3 篇:OpenGL 窗…
-
Dimple:一种用于高效可控文本生成的离散扩散多模态语言模型
近几个月来,人们对将扩散模型(最初设计用于图像等连续数据)应用于自然语言处理任务的兴趣日益浓厚。这促成了离散扩散语言模型 (DLM) 的发展,该模型将文本生成视为一个去噪过程。与传…
-
探索 OpenGL 音视频渲染技术(2):创建窗口
这个系列文章我们来介绍一位海外工程师如何探索 OpenGL 音视频渲染技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 2 篇:OpenGL 创建窗口。 …
-
探索 OpenGL 音视频渲染技术(1):简介
这个系列文章我们来介绍一位海外工程师如何探索 OpenGL 音视频渲染技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 1 篇:OpenGL 简…
-
Meta AI 推出 Multi-SpatialMLLM:基于多模态大型语言模型的多帧空间理解
多模态大型语言模型 (MLLM) 作为能够处理各种视觉任务的多功能 AI 助手,已取得显著进展。然而,它们作为孤立的数字实体部署限制了其潜在的影响力。将 MLLM 集成到机器人和自…
-
Web端实时通信技术SSE在携程机票业务中的实践应用
本文介绍了携程机票前端基于Server-Sent Events(SSE)实现服务端推送的企业级全链路通用技术解决方案。深入探讨 SSE 技术在应用过程中包括方案对比、技术选型、链路层优化以及实际效果等多维度的技术细节。
-
探索 OBS Studio 音视频推流技术(6):脚本编程
通过 OBS Studio 的工具菜单中的脚本选项访问脚本编程,这将弹出脚本对话框。脚本可以在程序运行时实时添加、移除和重新加载。
-
淘宝直播组件调度、复用和治理
本文主要介绍了淘宝直播组件进行的三大优化方向:组件调度、组件复用和组件治理。通过这些优化,旨在提升直播间性能与用户体验。最终,这些优化在技术指标(如 CPU 使用率、卡顿率)和业务…
-
视频编码和解码的互操作性问题,以及解决措施
在专业视频传输领域,你可能会想当然地认为,只要发送符合标准的流媒体,任何专业解码器都应该能够可靠地播放。毕竟,标准就是标准……对吧? 遗憾的是,现实世界并非如此。 事实上,视频编码…
-
重塑流媒体成功的隐性测试挑战
当 Hulu 的平台在 2025 年奥斯卡颁奖典礼期间崩溃时,它引发了可预见的头条新闻,即在一场备受瞩目的活动中又出现了一次流媒体故障。然而,这些头条新闻忽略了流媒体所面临挑战的更…
-
安卓杜比视界格式支持开始超越苹果了?
最近入手了 小米 15 和 OPPO Finx X8 Ultra 两台高端机做测试,比现在用的 iPhone13 流畅太多了,而且在影像能力上也强不少。 现在不少安卓高端机都支持 …
-
探索 OBS Studio 音视频推流技术(5):渲染图形
这个系列文章我们来介绍一位海外工程师如何探索 OBS Studio 音视频推流技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 5 篇:渲染图形。 —— …
-
NVIDIA 发布 Llama Nemotron Nano 4B:针对边缘 AI 和科学任务优化的高效开放推理模型
NVIDIA 发布了 Llama Nemotron Nano 4B,这是一个开源推理模型,旨在在科学任务、编程、符号数学、函数调用和指令跟踪方面提供强大的性能和效率,同时足够紧凑,…
-
6G网络中的边缘AI:超低延迟AI计算的未来
AI 和无线通信网络的快速发展 正在推动下一代技术的发展。随着 5G 网络的不断扩展,研究人员和行业领袖已开始展望 6G,它有望带来前所未有的数据速度、超低延迟和智能连接。6G 网…
-
调调编码器的CRF,它背后的唯物辩证法
视频编解码领域的(根本)矛盾就是视频的画质和码率(成本)的矛盾,即所谓的RDO率失真优化,它这种特殊的矛盾也决定了视频编解码区别于其他科学研究领域的本质。