技术文章
-
摩尔线程MTVSR实时视频超分技术:让经典影像获高清“重生”
随着高分辨率桌面显示器价格不断下探,4K及以上分辨率的显示器已逐渐成为市场主流。然而,与超高清显示设备的普及形成反差的是,当前海量视频内容仍主要停留在720p和1080p的高清标准…
-
【音视频】C++ 实现视频编码与解码
在 Android NDK 开发中,直接使用 C++ 调用 MediaCodec 通常是为了追求极致性能或与现有的 FFmpeg/OpenGL 管道集成。自 A…
-
如何为高密度语音场景设计Wi-Fi 6与Wi-Fi 7
当几十甚至几百个用户共享同一个无线网络时,语音通话往往首当其冲受到影响。通话会中断,音频会断断续续。用户通常会责怪电话系统,但实际上,问题往往出在 Wi-Fi 设计上。 如果您计划…
-
ICLR 2026 | 基于概念蒸馏的生成式视频复原算法Vivid-VR
本文介绍了由淘天音视频技术团队提出的一种名为Vivid-VR的生成式视频复原算法,该成果已被顶级会议ICLR 2026收录。针对现有基于扩散模型的视频复原方法在微调过程中容易出现的…
-
消息平台演进之路:为什么融合是必然趋势
云原生架构的成熟、存储技术的演进、以及行业对平台化治理的共识,让统一消息平台从愿景变为现实。消息基础设施正在迎来一次范式跃迁:从「多套工具各司其职」走向「一个平台统一承载」。
-
小红书:实时交互系统如何打造极致沉浸的语音拜年体验
2026年春节期间,面对亿级 DAU 流量洪峰,社交业务成功落地了「语音拜年」与「表情烟花」两大重磅活动。本文阐述了如何通过融合自适应调度引擎、实时 ASR 语音识别及高性能粒子渲…
-
CVPR 2026 | 多模态通用的轻量化无损压缩方法
本文为上海交通大学与蚂蚁集团的合作工作,主要关注多模态数据的统一高效无损压缩。无损压缩是数据存储与传输的基石,但在多模态协同的大数据时代,现有压缩器要么仅针对单模态设计导致部署冗余…
-
ICLR 2026 | 火山引擎多媒体实验室提出GenDR, 探索扩散模型超分落地难题
由于扩散模型在图像生成任务取得质的突破,越来越多的底层视觉任务受益于其强大的生成式先验——从图像超分辨率、去噪,到图像修复、扩散模型正以细节生成和语义理解的双重优势,重构底层视觉任…
-
MambaJSCC:基于广义状态空间模型的自适应联合信源信道编码器
上海交通大学陈智勇研究员课题组在北京邮电大学张平院士、上海交通大学张文军院士联合指导下,在高效轻量化语义通信架构方面取得进展。课题组深入挖掘了状态空间模型(SSM)的数学机理,从理…
-
从提示工程到意图工程:人机交互通信的演变
过去几年间,提示工程已成为 AI 时代最重要的技能之一。围绕它开设了课程,为此创造了职位名称,甚至形成了专门的社群,人们在此分享如何构造完美句子以让语言模型精准执行指令的技巧。提示…
-
OpenSIPS 4.0 中对代理协议的支持
现代 SIP 基础设施越来越依赖负载均衡器、反向代理和云边缘服务来实现可扩展性、安全性和地理分布。虽然这些组件非常有用,但它们通常会对后端 SIP 基础设施隐藏客户端的原始源地址。…
-
Vulkan 游戏引擎新教程:构建你自己的可用于生产环境的渲染引擎
Khronos® 旗下的 Vulkan® 工作组发布了《构建简易游戏引擎》教程,这是一份面向开发者的全新深度教程,旨在帮助他们超越基础知识,迈向专业级引擎开发。该系列教程以《 Vu…
-
Sakana AI推出Doc-to-LoRa和Text-to-LoRa:能够即时理解长上下文并通过零样本自然语言调整LLM的超网络
目前,大型语言模型 (LLM) 的定制面临着一个重要的工程权衡:一方面是上下文学习 (ICL)的灵活性,另一方面是上下文蒸馏 (CD)或监督微调 (SFT)的效率。总部位于东京的 …
-
什么是聊天审核?聊天审核完整指南
许多在线社区发展迅速,不断受到有害或垃圾信息的挑战。每个数字企业都需要一个安全友好的用户交流空间。因此,聊天审核如今已成为用户保护的重要组成部分。这一流程还能确保每场对话对所有人都…
-
【音视频】基于 QP 的恒定画质控制指南
在 iOS 影像开发中,传统的比特率控制(ABR/VBR)往往在复杂动态画面或微距特写下产生“糊块”。要实现真正意义上的“清晰度一致”,必须深入底层控制 QP。 1、QP…
-
在 macOS 的 Chrome 浏览器中录制屏幕并包含系统声音
本文讲述作者经过反复阅读、测试和版本对比才逐步确认:在macOS 14.2 及更高版本系统中,Chrome 141 及以上版本已支持通过 getDisplayMedia 实现系统音频共享功能。
-
AI真人数字人语音对话性能优化实践总结
本文总结了为解决 AI 数字人导购对话中的回答延迟感而进行的性能优化实践。初始的对话链路因 ASR、LLM 和 TTS 的串行叠加,导致平均端到端延迟高达 5.64 秒。为实现数据…
-
WebRTC技术栈指南:可扩展实时应用程序的架构
与具有简单请求-响应模式的传统 Web 应用程序不同,实时通信平台需要一个统一的生态系统和复杂的 WebRTC 技术栈来处理实时媒体流、管理对等连接、确保低延迟,并能够扩展到大量并…
-
音视频技术已大幅提升,为何我们仍感受不到身临其境?
过去20年来,我们一直在以易于衡量的方式改进数字媒体。分辨率稳步提升,网络速度加快,延迟降低。几乎所有技术指标都取得了显著进步。然而,尽管取得了如此巨大的进步,我们的数字互动仍然感…
-
OpenAI 的 WebSocket 模式如何重塑低延迟语音驱动 AI 体验
在生成式 AI 领域,延迟是沉浸感的终极杀手。直到最近,构建语音驱动的 AI 代理仍如同组装鲁布·戈德堡装置:需将音频输入语音转文本(STT)模型,将转录文本发送至大语言模型(LL…