技术文章
-
NVIDIA 研究人员在 Transformer LLM 中引入动态内存稀疏化 (DMS),实现 8× KV 缓存压缩
随着推理密集型任务需求的增长,大型语言模型 (LLM) 越来越有望生成更长的序列或并行推理链。然而,推理时间性能不仅受限于生成的令牌数量,还严重受限于键值 (KV) 缓存的内存占用…
-
使用 WebRTC 与 Python 构建由 AI 驱动的实时应用程序
在这个以响应速度和互动性引导用户期望的时代,掌握实时通信技术正迅速成为一项不可或缺的技能。无论您是在设计 AI 语音界面、协作学习工具,还是在设计下一代多人游戏环境,跨设备即时且智…
-
vivo Pulsar 万亿级消息处理实践(2)-从0到1建设 Pulsar 指标监控链路
本文是《vivo Pulsar万亿级消息处理实践》系列文章第2篇,Pulsar支持上报分区粒度指标,Kafka则没有分区粒度的指标,所以Pulsar的指标量级要远大于Kafka。在…
-
探索 FFmpeg Basics 音视频技术(2):文本帮助
FFmpeg 工具有一个很大的控制台帮助,可以完整显示或关于特定元素 – 解码器,编码器等。下表介绍了可用选项,斜体文本将替换为要显示的项目。ffplay 和 ffprobe 也有类似的选项。
-
语言模型到底能记忆多少内容?Meta 的新框架定义了比特级的模型容量
现代语言模型的记忆行为面临越来越多的质疑。例如,一个拥有 80 亿个参数的转换器,需要用 15 万亿个词元进行训练,研究人员开始质疑这些模型是否能够以有意义的方式记忆训练数据。数据…
-
探索 FFmpeg Basics 音视频技术(1):基本介绍
这个系列文章我们来介绍一位海外工程师如何探索 FFmpeg Basics 音视频技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 1 篇:FFmpeg 基…
-
Meta 推出 LlamaRL:基于 PyTorch 的可扩展强化学习 RL 框架,可实现高效的大规模 LLM 训练
强化学习已成为一种强大的方法,可以对大型语言模型 (LLM) 进行微调,使其更加智能。这些模型已经能够执行从摘要到代码生成的各种任务。强化学习能够根据结构化反馈调整其输出,从而提供…
-
工具增强型 AI Agents 如何利用推理、记忆和自主性重新定义语言模型
早期的大型语言模型 (LLM) 擅长生成连贯的文本;然而,它们在处理需要精确操作的任务(例如算术计算或实时数据查找)时却举步维艰。工具增强型代理的出现弥补了这一缺陷,它赋予 LLM…
-
OpenVidu 3.2.0 发布,提供 Azure 原生部署
WebRTC 开源实时通信平台 OpenVidu 发布了 3.3.0 版本。提供 Azure 原生部署、Azure 录制、单节点 PRO、更新 LiveKit 堆栈等功能。 变更…
-
以边缘为中心的 DevOps:分布式 AI 环境中的持续集成和交付
随着人工智能(AI) 从集中式云系统迁移到分布式边缘环境,传统的 DevOps 方法面临着新的挑战。边缘 AI 工作负载需要实时处理、低延迟响应和自适应部署,这使得持续集成和交付 …
-
探索 OpenGL 音视频渲染技术(9):相机
讨论如何在 OpenGL 中设置相机。我们将讨论一种飞行风格的相机,它允许你在 3D 场景中自由移动。我们还将讨论键盘和鼠标输入,并以一个自定义的相机类结束。
-
Yandex 发布 Alchemist:用于提升文本转图像 T2I 模型质量的增强型监督微调数据集
尽管 DALL-E 3、Imagen 3 和 Stable Diffusion 3 等模型在文本转图像 (T2I) 生成方面取得了显著进展,但实现一致的输出质量(包括美观度和对齐度…
-
2025 年体积视频压缩技术市场:受AI编解码器和沉浸式媒体需求驱动,复合年增长率达 28%
2025年体积视频压缩技术市场报告:深入分析增长动力、创新和全球机遇。探索塑造未来五年的关键趋势、预测和竞争洞察。 执行摘要和市场概览 体积视频压缩技术是实现沉浸式媒体体验的前沿技…
-
探索 OpenGL 音视频渲染技术(8):坐标系统
这个系列文章我们来介绍一位海外工程师如何探索 OpenGL 音视频渲染技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 8 篇:OpenGL 坐标系统。 …
-
50+ 值得探索的模型上下文协议 (MCP) 服务器
什么是模型上下文协议(MCP)? Anthropic 于 2024 年 11 月推出的模型上下文协议 (MCP),为 AI 模型建立了一个标准化、安全的接口,使其能够通过基于 JS…
-
Meta 和 Norsk 选择流媒体编解码器的驱动因素
在流媒体领域,关于编解码器选择的争论从 H.264 到 AV1 和 HEVC,甚至更多,那么当解决方案和服务提供商帮助创作者和客户在线直播和点播视频时,是什么驱动着他们选择编解码器…
-
从“单聊”到“多 AI 群聊”,即构发布实时互动 AI Agent 2.2版本
ZEGO正式发布实时互动 AI Agent 2.2版本,解锁核心能力——「1个用户与多个AI角色语音互动」,为你开启前所未有的沉浸式多角色语音群聊时代! 语音陪伴升级:从“单聊”到…
-
字节跳动发布图像编辑模型SeedEdit 3.0!更强保持力,更高可用率
依靠 AI 完成指令式图像编辑的需求,广泛存在于视觉内容创意工作中。但此前,图像编辑模型在主体&背景保持、指令遵循等方面能力相对有限,导致编辑图像可用率不高。 图像编辑模型…
-
十大 WebSocket 客户端工具,不容错过!
探索开发人员应了解的强大且可靠的 WebSocket 客户端工具。从调试实时应用程序到测试 WebSocket 服务器,这些工具简化了开发过程并提高了工作效率,千万不要错过这些重要…
-
探索 OpenGL 音视频渲染技术(7):变换
这个系列文章我们来介绍一位海外工程师如何探索 OpenGL 音视频渲染技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 7 篇:OpenGL 变换。 ——…