技术文章 - 实时互动网第33页

即时通讯

十大 WebSocket 客户端工具，不容错过!

探索开发人员应了解的强大且可靠的 WebSocket 客户端工具。从调试实时应用程序到测试 WebSocket 服务器，这些工具简化了开发过程并提高了工作效率，千万不要错过这些重要…

IM开发老王

2025年6月6日

实时音视频

探索 OpenGL 音视频渲染技术（7）：变换

这个系列文章我们来介绍一位海外工程师如何探索 OpenGL 音视频渲染技术，对于想要开始学习音视频技术的朋友，这些文章是份不错的入门资料，这是第 7 篇：OpenGL 变换。 ——…

RTC观主

2025年6月6日

技术文章

Salesforce AI 推出 CRMArena-Pro：首个面向 LLM 代理的多轮企业级基准测试

由 LLM 驱动的 AI 代理在处理复杂业务任务方面展现出巨大潜力，尤其是在客户关系管理 (CRM) 等领域。然而，由于缺乏公开可用的真实业务数据，评估其实际效果颇具挑战性。现有的…

AIGC

2025年6月6日

即时通讯

vivo Pulsar万亿级消息处理实践（1）：数据发送原理解析和性能调优

本文是vivo互联网大数据团队《vivo Pulsar万亿级消息处理实践》系列文章第1篇。文章以Pulsar client模块中的Producer为解析对象，通过对Produce…

大厂Animal

2025年6月5日

实时音视频

探索 OpenGL 音视频渲染技术（6）：纹理

这个系列文章我们来介绍一位海外工程师如何探索 OpenGL 音视频渲染技术，对于想要开始学习音视频技术的朋友，这些文章是份不错的入门资料，这是第 6 篇：OpenGL 纹理。 ——…

RTC观主

2025年6月5日

技术文章

NVIDIA AI 发布 Llama Nemotron Nano VL：专为文档理解而优化的紧凑型视觉语言模型

NVIDIA 推出了Llama Nemotron Nano VL，这是一种视觉语言模型 (VLM)，旨在高效、精准地处理文档级理解任务。该版本基于 Llama 3.1 架构构建，并…

AIGC

2025年6月5日

WebRTC

WHIP Muxer 与 FFmpeg 合并，实现毫秒级延迟流式传输

一夜之间，一个大型项目并入了 FFmpeg，为毫秒级延迟流提供了 WHIP muxer。 WHIP 是 WebRTC-HTTP Ingestion Protocol 的缩写，是一种…

追风者

2025年6月5日

技术文章

2025 年应该了解的 10 种最流行的视频格式

本文带您了解 2025 年最流行的 10 种视频格式、了解每种格式的用途，以及如何为您的工作流程选择最佳格式。 10 种最流行的视频格式 1. MP4（.mp4） MP4 仍然统治…

视频技术

2025年6月4日

技术文章

Hugging Face 发布 SmolVLA：经济高效的机器人紧凑型 VLA 模型

尽管近期通过大规模视觉-语言-动作 (VLA) 模型实现机器人控制取得了进展，但实际部署仍然受到硬件和数据需求的限制。大多数 VLA 模型依赖于基于 Transformer 的主干…

AIGC

2025年6月4日

实时音视频

探索 OpenGL 音视频渲染技术（5）：着色器

本文将以更通用的方式解释着色器，特别是 OpenGL 着色语言。着色器是用类似 C 的语言 GLSL 编写的。GLSL 专为图形使用而设计，包含专门针对向量和矩阵操作的有用功能。

RTC观主

2025年6月4日

实时音视频

探索 OpenGL 音视频渲染技术（4）：三角形入门

OpenGL 三角形入门。在本章中，我们将简要讨论图形管道，以及如何利用它来创建漂亮的像素效果。

RTC观主

2025年6月3日

技术文章

MIT 新 AI 模型实现音画同步学习：无需标注即可准确对齐视频与音频

人类天生通过视觉与听觉的关联来学习。例如，我们看到有人拉小提琴时，能意识到演奏者的动作正在产生我们听到的音乐。麻省理工学院（MIT）等机构的研究人员开发了一种新方法，可提升人工智…

音频技术

2025年5月30日

WebRTC

WebRTC音频处理模块（APM）简介

本文对WebRTC中的音频处理模块APM（Audio Module Processing）部分的框架、音频数据处理在其中进行处理的总体工作流程进行了简单的总结。

webrtc学习和实践

2025年5月30日

技术文章

Qt C++ 图像处理学习路线

公众号“QT历险记” 发布了 Qt C++ 图像处理学习路线，内容包含基础学习阶段、进阶学习阶段、项目实战阶段和职业规划与就业阶段等内容。基础学习阶段掌握 C++ 基础：Qt…

图像处理

2025年5月30日

实时音视频

探索 OpenGL 音视频渲染技术（3）：窗口入门

这个系列文章我们来介绍一位海外工程师如何探索 OpenGL 音视频渲染技术，对于想要开始学习音视频技术的朋友，这些文章是份不错的入门资料，这是第 3 篇：OpenGL 窗…

RTC观主

2025年5月30日

技术文章

Dimple：一种用于高效可控文本生成的离散扩散多模态语言模型

近几个月来，人们对将扩散模型（最初设计用于图像等连续数据）应用于自然语言处理任务的兴趣日益浓厚。这促成了离散扩散语言模型 (DLM) 的发展，该模型将文本生成视为一个去噪过程。与传…

AIGC

2025年5月30日

实时音视频

探索 OpenGL 音视频渲染技术（2）：创建窗口

这个系列文章我们来介绍一位海外工程师如何探索 OpenGL 音视频渲染技术，对于想要开始学习音视频技术的朋友，这些文章是份不错的入门资料，这是第 2 篇：OpenGL 创建窗口。 …

RTC观主

2025年5月29日

实时音视频

探索 OpenGL 音视频渲染技术（1）：简介

这个系列文章我们来介绍一位海外工程师如何探索 OpenGL 音视频渲染技术，对于想要开始学习音视频技术的朋友，这些文章是份不错的入门资料，这是第 1 篇：OpenGL 简…

RTC观主

2025年5月28日

技术文章

Meta AI 推出 Multi-SpatialMLLM：基于多模态大型语言模型的多帧空间理解

多模态大型语言模型 (MLLM) 作为能够处理各种视觉任务的多功能 AI 助手，已取得显著进展。然而，它们作为孤立的数字实体部署限制了其潜在的影响力。将 MLLM 集成到机器人和自…

AIGC

2025年5月28日

即时通讯

Web端实时通信技术SSE在携程机票业务中的实践应用

本文介绍了携程机票前端基于Server-Sent Events（SSE）实现服务端推送的企业级全链路通用技术解决方案。深入探讨 SSE 技术在应用过程中包括方案对比、技术选型、链路层优化以及实际效果等多维度的技术细节。

大厂Animal

2025年5月27日