技术文章
-
MambaJSCC:基于广义状态空间模型的自适应联合信源信道编码器
上海交通大学陈智勇研究员课题组在北京邮电大学张平院士、上海交通大学张文军院士联合指导下,在高效轻量化语义通信架构方面取得进展。课题组深入挖掘了状态空间模型(SSM)的数学机理,从理…
-
从提示工程到意图工程:人机交互通信的演变
过去几年间,提示工程已成为 AI 时代最重要的技能之一。围绕它开设了课程,为此创造了职位名称,甚至形成了专门的社群,人们在此分享如何构造完美句子以让语言模型精准执行指令的技巧。提示…
-
OpenSIPS 4.0 中对代理协议的支持
现代 SIP 基础设施越来越依赖负载均衡器、反向代理和云边缘服务来实现可扩展性、安全性和地理分布。虽然这些组件非常有用,但它们通常会对后端 SIP 基础设施隐藏客户端的原始源地址。…
-
Vulkan 游戏引擎新教程:构建你自己的可用于生产环境的渲染引擎
Khronos® 旗下的 Vulkan® 工作组发布了《构建简易游戏引擎》教程,这是一份面向开发者的全新深度教程,旨在帮助他们超越基础知识,迈向专业级引擎开发。该系列教程以《 Vu…
-
Sakana AI推出Doc-to-LoRa和Text-to-LoRa:能够即时理解长上下文并通过零样本自然语言调整LLM的超网络
目前,大型语言模型 (LLM) 的定制面临着一个重要的工程权衡:一方面是上下文学习 (ICL)的灵活性,另一方面是上下文蒸馏 (CD)或监督微调 (SFT)的效率。总部位于东京的 …
-
什么是聊天审核?聊天审核完整指南
许多在线社区发展迅速,不断受到有害或垃圾信息的挑战。每个数字企业都需要一个安全友好的用户交流空间。因此,聊天审核如今已成为用户保护的重要组成部分。这一流程还能确保每场对话对所有人都…
-
【音视频】基于 QP 的恒定画质控制指南
在 iOS 影像开发中,传统的比特率控制(ABR/VBR)往往在复杂动态画面或微距特写下产生“糊块”。要实现真正意义上的“清晰度一致”,必须深入底层控制 QP。 1、QP…
-
在 macOS 的 Chrome 浏览器中录制屏幕并包含系统声音
本文讲述作者经过反复阅读、测试和版本对比才逐步确认:在macOS 14.2 及更高版本系统中,Chrome 141 及以上版本已支持通过 getDisplayMedia 实现系统音频共享功能。
-
AI真人数字人语音对话性能优化实践总结
本文总结了为解决 AI 数字人导购对话中的回答延迟感而进行的性能优化实践。初始的对话链路因 ASR、LLM 和 TTS 的串行叠加,导致平均端到端延迟高达 5.64 秒。为实现数据…
-
WebRTC技术栈指南:可扩展实时应用程序的架构
与具有简单请求-响应模式的传统 Web 应用程序不同,实时通信平台需要一个统一的生态系统和复杂的 WebRTC 技术栈来处理实时媒体流、管理对等连接、确保低延迟,并能够扩展到大量并…
-
音视频技术已大幅提升,为何我们仍感受不到身临其境?
过去20年来,我们一直在以易于衡量的方式改进数字媒体。分辨率稳步提升,网络速度加快,延迟降低。几乎所有技术指标都取得了显著进步。然而,尽管取得了如此巨大的进步,我们的数字互动仍然感…
-
OpenAI 的 WebSocket 模式如何重塑低延迟语音驱动 AI 体验
在生成式 AI 领域,延迟是沉浸感的终极杀手。直到最近,构建语音驱动的 AI 代理仍如同组装鲁布·戈德堡装置:需将音频输入语音转文本(STT)模型,将转录文本发送至大语言模型(LL…
-
LLM-ForcedAligner:多语种长语音非自回归强制对齐器
LLM-ForcedAligner 具备平均时间偏移低、多语言和跨语言处理能力强、最长支持5分钟语音输入和灵活定义时间戳预测位置的特点,并且其非自回归推理方式可消除大语言模型next-token prediction范式中存在的幻觉和计算缓慢问题。
-
视频直播卡顿的原因(视频直播卡顿怎么解决)
视频直播卡顿是音视频开发者最为关注的问题之一。本文向开发者们介绍视频直播卡顿的主要原因,问题表现、常见场景、问题定位排查和解决方案,同时提供实际案例和预防措施,帮助开发者更好的解决…
-
视频生成推理加速实践:基于全局时间索引的序列并行 3D 位置编码优化
本文分享了哔哩哔哩在视频生成模型推理优化中的一系列实践,重点围绕分块自回归视频模型在序列并行场景下的计算与通信优化展开。除上述工作外,我们还在低比特量化、计算图优化等方向持续探索,…
-
小红书发布FireRed-Image-Edit:图像编辑新SOTA
昨日,小红书基础模型 FireRed-Image-Edit 正式亮相 GitHub。 作为小红书 Super Intelligence Team 在图像生成与编辑领域的一次重要探索…
-
大规模 RTSP 流媒体传输:架构和性能考量
尽管流媒体行业常聚焦于最新协议或 Flash 等已淘汰的旧标准,实时流媒体协议(RTSP)却正迎来巨大复兴。这并非因 RTSP 是突破性新技术,而是它始终是交通运输部门、执法机构及…
-
ZEGO AI Agent 如何设置智能体语音情绪?让 AI 语音互动更具情感表现力
目前部分大模型版本文字转语音(TTS),支持指定合成时所使用的情绪。 在与 AI 进行实时语音互动场景下,可以搭配大语言模型 LLM 的系统提示词,实现让 AI 基于人设输出对应的…
-
vivo:游戏中心弱网优化实践
本实践围绕游戏中心在弱网环境下的性能优化展开,针对复杂网络场景下的页面加载慢、资源加载失败等问题,提出了优化方案:接入支持 QUIC 协议的 Cronet 网络库,通过更快的连接建…
-
自主音视频技术优化落地,驱动移动视听新体验 | 广电视听科技亮点
如今,移动端高清视听已成主流,但以AVS3、HDR Vivid、Audio Vivid为代表的自主音视频技术,仍面临应用规模不足、移动端落地难等问题。为破解这一困境,广电总局设立中…