技术文章 - 实时互动网第37页

WebRTC

使用 WebRTC、React 和 NestJS 构建视频聊天应用程序

在当今万物互联的世界里，实时通信应用已成为个人和专业应用的必需品。尤其是视频聊天应用程序，其受欢迎程度呈指数级增长，而全球性事件导致远程互动的需求也加速了这一趋势。在本综合指南中…

webrtc学习和实践

2025年4月28日

技术文章

体育直播如何发展，为什么无缝传输比以往任何时候都更重要

短短几年间，我们观看体育直播的方式发生了翻天覆地的变化。过去，观众只需收看一家广播公司的节目，而现在则有多种平台可供选择，从传统的线性频道到 OTT 服务和虚拟的多频道视频节目分销…

直播技术

2025年4月28日

实时音视频

探索 CameraX 音视频相机技术（1）：CameraX 架构

本篇文章涵盖了 CameraX 的架构，包括其结构、如何使用 API、如何处理生命周期以及如何组合用例。

RTC观主

2025年4月28日

技术文章

微软发布 Agentic AI 系统故障模式综合指南

随着 Agentic AI 系统的发展，确保其可靠性、安全性和保障性的复杂性也相应增加。认识到这一点后，微软 AI Red Team（AIRT）发布了一份详细的分类报告，阐述了代理…

AIGC

2025年4月28日

技术文章

字节跳动推出 QuaDMix：用于 LLM 预训练的数据质量和多样性的统一 AI 框架

大型语言模型 (LLM) 的预训练效率和泛化能力受到底层训练语料库质量和多样性的显著影响。传统的数据管理流程通常将质量和多样性视为独立的目标，先进行质量过滤，然后再进行领域平衡。这…

AIGC

2025年4月27日

WebRTC

SIPSorcery 简介、整体架构、核心功能及应用场景

SIPSorcery是一个支持SIP和WebRTC的跨平台库，使用户能够进行音视频通信。该库的主体设计为平台无关，可在任何支持.NET Standard 2.0的平台上运行。它能处…

RTC观主

2025年4月27日

技术文章

通过简单的 JPEG 压缩实现图像的自我验证

在过去几年中，有关篡改图像所带来风险的担忧经常出现在研究中，尤其是在基于人工智能的图像编辑框架不断涌现的情况下，这些框架能够修改现有图像，而不是直接创建图像。针对此类内容提出的检…

图像处理

2025年4月27日

技术文章

人工智能如何改变配音、翻译和本地化的游戏规则

人工智能配音是 NAB 2025 展会上最具活力的创新领域之一，但人工智能也在开辟令人兴奋的新领域，尤其是在音频翻译领域。为了找到人工智能能带来真正投资回报的具体应用案例，SVG …

音频技术

2025年4月27日

技术文章

Zee5 如何使用内部开发的转码器对垂直视频进行转码

介绍视频流媒体平台 Zee5 内部构建的转码解决方案，以相同的速度生成质量更高（比现有解决方案生成的内容更好）且成本更低的替代方案。

编解码

2025年4月25日

实时音视频

探索 ExoPlayer 音视频播放技术（12）：播放分析

这个系列文章我们来介绍一位海外工程师如何探索 ExoPlayer 音视频播放技术，对于想要开始学习音视频技术的朋友，这些文章是份不错的入门资料，这是第 12 篇：ExoPlayer…

RTC观主

2025年4月25日

技术文章

Meta AI 发布 Web-SSL：一种可扩展且无需语言的视觉表征学习方法

近年来，诸如 CLIP 之类的对比语言-图像模型已成为学习视觉表征的默认选择，尤其是在视觉问答 (VQA) 和文档理解等多模态应用中。这些模型利用大规模图像-文本对，通过语言监督来…

AIGC

2025年4月25日

技术文章

什么是视频转码？为什么视频转码对视频流至关重要

一个普遍的事实是，几乎 80% 的互联网流量由视频组成，因此，视频内容提供商有责任以更高效、更环保的方式进行流式传输。提高流媒体效率的很大一部分努力归结为更好地压缩或转码视频，并在…

编解码

2025年4月24日

即时通讯

基于SSE的信息推送实践

作者：Tono，信也科技后端研发专家来源：拍码场链接：https://mp.weixin.qq.com/s/jy8Q8plgJQLiueHF2k5OVA 什么是 SSE SSE（S…

mazhu

2025年4月24日

实时音视频

探索 ExoPlayer 音视频播放技术（11）：网络栈

这个系列文章我们来介绍一位海外工程师如何探索 ExoPlayer 音视频播放技术，对于想要开始学习音视频技术的朋友，这些文章是份不错的入门资料，这是第 11 篇：ExoPlayer…

RTC观主

2025年4月24日

技术文章

NVIDIA AI 发布 Describe Anything 3B：用于细粒度图像和视频字幕的多模态 LLM

视觉语言模型本地化字幕面临的挑战描述图像或视频中的特定区域一直是视觉语言建模领域的一项挑战。虽然通用视觉语言模型 (VLM) 在生成全局描述方面表现良好，但它们往往无法生成详细的…

AIGC

2025年4月24日

技术文章

FFmpeg H.265解码WASM SIMD优化进展

WASM simd128是从常见CPU架构指令集里抽取出来的交集，相比ARM少了很多操作，相比x86不光操作少，寄存器还只有128bit，发挥空间小。WASM的simd指令还在扩充中，用更新的指令集也是后续的一个优化方向。

FFmpeg笔记

2025年4月24日

技术文章

CVPRW 2025 | 高效图像超分辨率中的蒸馏监督下的卷积低秩适应

本项工作是上海交通大学图像所MediaLab和传音多媒体团队的合作成果，获得CVPR NTIRE 2025高效超分辨率挑战赛道的第一名。卷积神经网络（CNN）在高效图像超分辨率领域…

图像处理

2025年4月23日

技术文章

NVIDIA AI 推出通用视觉语言模型 Eagle 2.5，仅用 8B 参数就能在视频任务中与 GPT-4o 匹配

近年来，视觉语言模型 (VLM) 在连接图像、视频和文本模态方面取得了显著进展。然而，一个持续存在的限制依然存在：无法有效处理长上下文多模态数据，例如高分辨率图像或扩展视频序列。许…

AIGC

2025年4月23日

实时音视频

探索 ExoPlayer 音视频播放技术（10）：直播流

这个系列文章我们来介绍一位海外工程师如何探索 ExoPlayer 音视频播放技术，对于想要开始学习音视频技术的朋友，这些文章是份不错的入门资料，这是第 10 篇：ExoPlayer…

RTC观主

2025年4月23日

技术文章

2D存量视频变3D金矿，来看京东3D空间视频生成技术探索与应用 | ICME 2025

近年来，随着社交媒体、流媒体平台以及XR设备的快速发展，沉浸式3D空间视频的需求迅猛增长，尤其是在短视频、直播和电影领域，正在重新定义观众的观看体验。2023年，苹果公司发布的空间…

大厂Animal

2025年4月22日