技术文章
-
字节跳动发布图像编辑模型SeedEdit 3.0!更强保持力,更高可用率
依靠 AI 完成指令式图像编辑的需求,广泛存在于视觉内容创意工作中。但此前,图像编辑模型在主体&背景保持、指令遵循等方面能力相对有限,导致编辑图像可用率不高。 图像编辑模型…
-
十大 WebSocket 客户端工具,不容错过!
探索开发人员应了解的强大且可靠的 WebSocket 客户端工具。从调试实时应用程序到测试 WebSocket 服务器,这些工具简化了开发过程并提高了工作效率,千万不要错过这些重要…
-
探索 OpenGL 音视频渲染技术(7):变换
这个系列文章我们来介绍一位海外工程师如何探索 OpenGL 音视频渲染技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 7 篇:OpenGL 变换。 ——…
-
Salesforce AI 推出 CRMArena-Pro:首个面向 LLM 代理的多轮企业级基准测试
由 LLM 驱动的 AI 代理在处理复杂业务任务方面展现出巨大潜力,尤其是在客户关系管理 (CRM) 等领域。然而,由于缺乏公开可用的真实业务数据,评估其实际效果颇具挑战性。现有的…
-
vivo Pulsar万亿级消息处理实践(1):数据发送原理解析和性能调优
本文是vivo互联网大数据团队《vivo Pulsar万亿级消息处理实践》系列文章第1篇。 文章以Pulsar client模块中的Producer为解析对象,通过对Produce…
-
探索 OpenGL 音视频渲染技术(6):纹理
这个系列文章我们来介绍一位海外工程师如何探索 OpenGL 音视频渲染技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 6 篇:OpenGL 纹理。 ——…
-
NVIDIA AI 发布 Llama Nemotron Nano VL:专为文档理解而优化的紧凑型视觉语言模型
NVIDIA 推出了Llama Nemotron Nano VL,这是一种视觉语言模型 (VLM),旨在高效、精准地处理文档级理解任务。该版本基于 Llama 3.1 架构构建,并…
-
WHIP Muxer 与 FFmpeg 合并,实现毫秒级延迟流式传输
一夜之间,一个大型项目并入了 FFmpeg,为毫秒级延迟流提供了 WHIP muxer。 WHIP 是 WebRTC-HTTP Ingestion Protocol 的缩写,是一种…
-
2025 年应该了解的 10 种最流行的视频格式
本文带您了解 2025 年最流行的 10 种视频格式、了解每种格式的用途,以及如何为您的工作流程选择最佳格式。 10 种最流行的视频格式 1. MP4(.mp4) MP4 仍然统治…
-
Hugging Face 发布 SmolVLA:经济高效的机器人紧凑型 VLA 模型
尽管近期通过大规模视觉-语言-动作 (VLA) 模型实现机器人控制取得了进展,但实际部署仍然受到硬件和数据需求的限制。大多数 VLA 模型依赖于基于 Transformer 的主干…
-
探索 OpenGL 音视频渲染技术(5):着色器
本文将以更通用的方式解释着色器,特别是 OpenGL 着色语言。着色器是用类似 C 的语言 GLSL 编写的。GLSL 专为图形使用而设计,包含专门针对向量和矩阵操作的有用功能。
-
探索 OpenGL 音视频渲染技术(4):三角形入门
OpenGL 三角形入门。在本章中,我们将简要讨论图形管道,以及如何利用它来创建漂亮的像素效果。
-
MIT 新 AI 模型实现音画同步学习:无需标注即可准确对齐视频与音频
人类天生通过视觉与听觉的关联来学习。例如,我们看到有人拉小提琴时,能意识到演奏者的动作正在产生我们听到的音乐。 麻省理工学院(MIT)等机构的研究人员开发了一种新方法,可提升人工智…
-
WebRTC音频处理模块(APM)简介
本文对WebRTC中的音频处理模块APM(Audio Module Processing)部分的框架、音频数据处理在其中进行处理的总体工作流程进行了简单的总结。
-
Qt C++ 图像处理学习路线
公众号“QT历险记” 发布了 Qt C++ 图像处理学习路线,内容包含基础学习阶段、进阶学习阶段、项目实战阶段和职业规划与就业阶段等内容。 基础学习阶段 掌握 C++ 基础 :Qt…
-
探索 OpenGL 音视频渲染技术(3):窗口入门
这个系列文章我们来介绍一位海外工程师如何探索 OpenGL 音视频渲染技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 3 篇:OpenGL 窗…
-
Dimple:一种用于高效可控文本生成的离散扩散多模态语言模型
近几个月来,人们对将扩散模型(最初设计用于图像等连续数据)应用于自然语言处理任务的兴趣日益浓厚。这促成了离散扩散语言模型 (DLM) 的发展,该模型将文本生成视为一个去噪过程。与传…
-
探索 OpenGL 音视频渲染技术(2):创建窗口
这个系列文章我们来介绍一位海外工程师如何探索 OpenGL 音视频渲染技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 2 篇:OpenGL 创建窗口。 …
-
探索 OpenGL 音视频渲染技术(1):简介
这个系列文章我们来介绍一位海外工程师如何探索 OpenGL 音视频渲染技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 1 篇:OpenGL 简…
-
Meta AI 推出 Multi-SpatialMLLM:基于多模态大型语言模型的多帧空间理解
多模态大型语言模型 (MLLM) 作为能够处理各种视觉任务的多功能 AI 助手,已取得显著进展。然而,它们作为孤立的数字实体部署限制了其潜在的影响力。将 MLLM 集成到机器人和自…