技术文章
-
专利态势分析显示 Fraunhofer 和 Dolby 领先音频编解码器竞争
从高保真音乐流媒体到无缝视频会议,再到沉浸式虚拟现实环境,数字音频技术已成为现代通信和娱乐不可或缺的一部分。这一变革的核心是音频编解码器——一种先进的技术,用于对数字音频流进行编码…
-
探索 FFmpeg Basics 音视频技术(4):调整和伸缩视频
在FFmpeg中,调整视频的大小是指通过一个选项改变其宽度和高度,而缩放则意味着使用一个具有高级功能的scale滤镜来改变帧的大小。
-
Sakana AI 推出 Text-to-LoRA (T2L):基于任务文本描述生成特定任务 LLM 适配器 (LoRA) 的超级网络
Transformer 模型显著影响了 AI 系统处理自然语言理解、翻译和推理任务的方式。这些大型模型,尤其是大型语言模型 (LLM),在规模和复杂度上不断增长,如今已涵盖了各个领…
-
AWS Wickr 是什么?AWS 的安全通信
AWS(亚马逊网络服务)可能会放弃其核心 UCaaS 产品 Chime,但这并不意味着它放弃了商业通信。联络中心负责人仍然可以通过 Amazon Connect 访问全渠道客户服务…
-
探索 FFmpeg Basics 音视频技术(3):比特率/帧率/文件大小
比特率和帧速率是视频的基本特征,它们的正确设置对整体视频质量至关重要。由于在使用 FFmpeg 工具时对帧速率和比特率的理解很重要,因此本文对每个术语进行了简要介绍。
-
NVIDIA 研究人员在 Transformer LLM 中引入动态内存稀疏化 (DMS),实现 8× KV 缓存压缩
随着推理密集型任务需求的增长,大型语言模型 (LLM) 越来越有望生成更长的序列或并行推理链。然而,推理时间性能不仅受限于生成的令牌数量,还严重受限于键值 (KV) 缓存的内存占用…
-
使用 WebRTC 与 Python 构建由 AI 驱动的实时应用程序
在这个以响应速度和互动性引导用户期望的时代,掌握实时通信技术正迅速成为一项不可或缺的技能。无论您是在设计 AI 语音界面、协作学习工具,还是在设计下一代多人游戏环境,跨设备即时且智…
-
vivo Pulsar 万亿级消息处理实践(2)-从0到1建设 Pulsar 指标监控链路
本文是《vivo Pulsar万亿级消息处理实践》系列文章第2篇,Pulsar支持上报分区粒度指标,Kafka则没有分区粒度的指标,所以Pulsar的指标量级要远大于Kafka。在…
-
探索 FFmpeg Basics 音视频技术(2):文本帮助
FFmpeg 工具有一个很大的控制台帮助,可以完整显示或关于特定元素 – 解码器,编码器等。下表介绍了可用选项,斜体文本将替换为要显示的项目。ffplay 和 ffprobe 也有类似的选项。
-
语言模型到底能记忆多少内容?Meta 的新框架定义了比特级的模型容量
现代语言模型的记忆行为面临越来越多的质疑。例如,一个拥有 80 亿个参数的转换器,需要用 15 万亿个词元进行训练,研究人员开始质疑这些模型是否能够以有意义的方式记忆训练数据。数据…
-
探索 FFmpeg Basics 音视频技术(1):基本介绍
这个系列文章我们来介绍一位海外工程师如何探索 FFmpeg Basics 音视频技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 1 篇:FFmpeg 基…
-
Meta 推出 LlamaRL:基于 PyTorch 的可扩展强化学习 RL 框架,可实现高效的大规模 LLM 训练
强化学习已成为一种强大的方法,可以对大型语言模型 (LLM) 进行微调,使其更加智能。这些模型已经能够执行从摘要到代码生成的各种任务。强化学习能够根据结构化反馈调整其输出,从而提供…
-
工具增强型 AI Agents 如何利用推理、记忆和自主性重新定义语言模型
早期的大型语言模型 (LLM) 擅长生成连贯的文本;然而,它们在处理需要精确操作的任务(例如算术计算或实时数据查找)时却举步维艰。工具增强型代理的出现弥补了这一缺陷,它赋予 LLM…
-
OpenVidu 3.2.0 发布,提供 Azure 原生部署
WebRTC 开源实时通信平台 OpenVidu 发布了 3.3.0 版本。提供 Azure 原生部署、Azure 录制、单节点 PRO、更新 LiveKit 堆栈等功能。 变更…
-
以边缘为中心的 DevOps:分布式 AI 环境中的持续集成和交付
随着人工智能(AI) 从集中式云系统迁移到分布式边缘环境,传统的 DevOps 方法面临着新的挑战。边缘 AI 工作负载需要实时处理、低延迟响应和自适应部署,这使得持续集成和交付 …
-
探索 OpenGL 音视频渲染技术(9):相机
讨论如何在 OpenGL 中设置相机。我们将讨论一种飞行风格的相机,它允许你在 3D 场景中自由移动。我们还将讨论键盘和鼠标输入,并以一个自定义的相机类结束。
-
Yandex 发布 Alchemist:用于提升文本转图像 T2I 模型质量的增强型监督微调数据集
尽管 DALL-E 3、Imagen 3 和 Stable Diffusion 3 等模型在文本转图像 (T2I) 生成方面取得了显著进展,但实现一致的输出质量(包括美观度和对齐度…
-
2025 年体积视频压缩技术市场:受AI编解码器和沉浸式媒体需求驱动,复合年增长率达 28%
2025年体积视频压缩技术市场报告:深入分析增长动力、创新和全球机遇。探索塑造未来五年的关键趋势、预测和竞争洞察。 执行摘要和市场概览 体积视频压缩技术是实现沉浸式媒体体验的前沿技…
-
探索 OpenGL 音视频渲染技术(8):坐标系统
这个系列文章我们来介绍一位海外工程师如何探索 OpenGL 音视频渲染技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 8 篇:OpenGL 坐标系统。 …
-
50+ 值得探索的模型上下文协议 (MCP) 服务器
什么是模型上下文协议(MCP)? Anthropic 于 2024 年 11 月推出的模型上下文协议 (MCP),为 AI 模型建立了一个标准化、安全的接口,使其能够通过基于 JS…