技术文章

即时通讯

AWS Wickr 是什么？AWS 的安全通信

AWS（亚马逊网络服务）可能会放弃其核心 UCaaS 产品 Chime，但这并不意味着它放弃了商业通信。联络中心负责人仍然可以通过 Amazon Connect 访问全渠道客户服务…

CTI观察
2025年6月16日
实时音视频

探索 FFmpeg Basics 音视频技术（3）：比特率/帧率/文件大小

比特率和帧速率是视频的基本特征，它们的正确设置对整体视频质量至关重要。由于在使用 FFmpeg 工具时对帧速率和比特率的理解很重要，因此本文对每个术语进行了简要介绍。

RTC观主
2025年6月13日
技术文章

NVIDIA 研究人员在 Transformer LLM 中引入动态内存稀疏化 (DMS)，实现 8× KV 缓存压缩

随着推理密集型任务需求的增长，大型语言模型 (LLM) 越来越有望生成更长的序列或并行推理链。然而，推理时间性能不仅受限于生成的令牌数量，还严重受限于键值 (KV) 缓存的内存占用…

AIGC
2025年6月13日
WebRTC

使用 WebRTC 与 Python 构建由 AI 驱动的实时应用程序

在这个以响应速度和互动性引导用户期望的时代，掌握实时通信技术正迅速成为一项不可或缺的技能。无论您是在设计 AI 语音界面、协作学习工具，还是在设计下一代多人游戏环境，跨设备即时且智…

webrtc学习和实践
2025年6月12日
即时通讯

vivo Pulsar 万亿级消息处理实践(2)-从0到1建设 Pulsar 指标监控链路

本文是《vivo Pulsar万亿级消息处理实践》系列文章第2篇，Pulsar支持上报分区粒度指标，Kafka则没有分区粒度的指标，所以Pulsar的指标量级要远大于Kafka。在…

大厂Animal
2025年6月12日
实时音视频

探索 FFmpeg Basics 音视频技术（2）：文本帮助

FFmpeg 工具有一个很大的控制台帮助，可以完整显示或关于特定元素 – 解码器，编码器等。下表介绍了可用选项，斜体文本将替换为要显示的项目。ffplay 和 ffprobe 也有类似的选项。

RTC观主
2025年6月12日
技术文章

语言模型到底能记忆多少内容？Meta 的新框架定义了比特级的模型容量

现代语言模型的记忆行为面临越来越多的质疑。例如，一个拥有 80 亿个参数的转换器，需要用 15 万亿个词元进行训练，研究人员开始质疑这些模型是否能够以有意义的方式记忆训练数据。数据…

AIGC
2025年6月12日
实时音视频

探索 FFmpeg Basics 音视频技术（1）：基本介绍

这个系列文章我们来介绍一位海外工程师如何探索 FFmpeg Basics 音视频技术，对于想要开始学习音视频技术的朋友，这些文章是份不错的入门资料，这是第 1 篇：FFmpeg 基…

RTC观主
2025年6月11日
技术文章

Meta 推出 LlamaRL：基于 PyTorch 的可扩展强化学习 RL 框架，可实现高效的大规模 LLM 训练

强化学习已成为一种强大的方法，可以对大型语言模型 (LLM) 进行微调，使其更加智能。这些模型已经能够执行从摘要到代码生成的各种任务。强化学习能够根据结构化反馈调整其输出，从而提供…

AIGC
2025年6月11日
技术文章

工具增强型 AI Agents 如何利用推理、记忆和自主性重新定义语言模型

早期的大型语言模型 (LLM) 擅长生成连贯的文本；然而，它们在处理需要精确操作的任务（例如算术计算或实时数据查找）时却举步维艰。工具增强型代理的出现弥补了这一缺陷，它赋予 LLM…

AIGC
2025年6月10日
WebRTC

OpenVidu 3.2.0 发布，提供 Azure 原生部署

WebRTC 开源实时通信平台 ‌OpenVidu 发布了 3.3.0 版本。提供 Azure 原生部署、Azure 录制、单节点 PRO、更新 LiveKit 堆栈等功能。变更…

webrtc学习和实践
2025年6月10日
技术文章

以边缘为中心的 DevOps：分布式 AI 环境中的持续集成和交付

随着人工智能(AI) 从集中式云系统迁移到分布式边缘环境，传统的 DevOps 方法面临着新的挑战。边缘 AI 工作负载需要实时处理、低延迟响应和自适应部署，这使得持续集成和交付 …

RTE基础设施
2025年6月10日
实时音视频

探索 OpenGL 音视频渲染技术（9）：相机

讨论如何在 OpenGL 中设置相机。我们将讨论一种飞行风格的相机，它允许你在 3D 场景中自由移动。我们还将讨论键盘和鼠标输入，并以一个自定义的相机类结束。

RTC观主
2025年6月10日
技术文章

Yandex 发布 Alchemist：用于提升文本转图像 T2I 模型质量的增强型监督微调数据集

尽管 DALL-E 3、Imagen 3 和 Stable Diffusion 3 等模型在文本转图像 (T2I) 生成方面取得了显著进展，但实现一致的输出质量（包括美观度和对齐度…

AIGC
2025年6月10日
技术文章

2025 年体积视频压缩技术市场：受AI编解码器和沉浸式媒体需求驱动，复合年增长率达 28%

2025年体积视频压缩技术市场报告：深入分析增长动力、创新和全球机遇。探索塑造未来五年的关键趋势、预测和竞争洞察。执行摘要和市场概览体积视频压缩技术是实现沉浸式媒体体验的前沿技…

视频技术
2025年6月9日
实时音视频

探索 OpenGL 音视频渲染技术（8）：坐标系统

这个系列文章我们来介绍一位海外工程师如何探索 OpenGL 音视频渲染技术，对于想要开始学习音视频技术的朋友，这些文章是份不错的入门资料，这是第 8 篇：OpenGL 坐标系统。 …

RTC观主
2025年6月9日
技术文章

50+ 值得探索的模型上下文协议 (MCP) 服务器

什么是模型上下文协议（MCP）？ Anthropic 于 2024 年 11 月推出的模型上下文协议 (MCP)，为 AI 模型建立了一个标准化、安全的接口，使其能够通过基于 JS…

AIGC
2025年6月9日
技术文章

Meta 和 Norsk 选择流媒体编解码器的驱动因素

在流媒体领域，关于编解码器选择的争论从 H.264 到 AV1 和 HEVC，甚至更多，那么当解决方案和服务提供商帮助创作者和客户在线直播和点播视频时，是什么驱动着他们选择编解码器…

编解码
2025年6月9日
实时音视频

从“单聊”到“多 AI 群聊”，即构发布实时互动 AI Agent 2.2版本

ZEGO正式发布实时互动 AI Agent 2.2版本，解锁核心能力——「1个用户与多个AI角色语音互动」，为你开启前所未有的沉浸式多角色语音群聊时代！语音陪伴升级：从“单聊”到…

ZEGO即构科技
2025年6月7日
技术文章

字节跳动发布图像编辑模型SeedEdit 3.0！更强保持力，更高可用率

依靠 AI 完成指令式图像编辑的需求，广泛存在于视觉内容创意工作中。但此前，图像编辑模型在主体&背景保持、指令遵循等方面能力相对有限，导致编辑图像可用率不高。图像编辑模型…

厂商动态
2025年6月6日