技术文章
-
Google AI 发布 TimesFM-2.5:更小、更长上下文的基础模型,现已引领 GIFT-Eval
谷歌研究院发布了TimesFM-2.5,这是一个拥有 2 亿个参数、仅解码器的时间序列基础模型,上下文长度为 16K,并原生支持概率预测。新的检查点已在 Hugging Face …
-
阿里推出 FunAudio-ASR:解决语音大模型企业落地的“最后一公里”
语音大模型识别不准?“幻觉”“串语种”频发?定制词总被忽略? 当前语音大模型的主流架构,是在大语言模型(LLM)前接入声学编码器,将音频特征映射到文本空间,再由LLM生成转写结果。…
-
探索 Vulkan 音视频技术(1):Vulkan 架构概述
SaschaWillems/Vulkan 仓库是一套全面的开源 C++ 示例合集,展示了 Vulkan 图形与计算 API 的功能。该框架围绕模块化设计构建,既抽象了常见的 Vulkan 操作,又保留了 Vulkan 提供的底层控制。
-
uniapp实现音视频通话教程(适用多端音视频项目开发)
“一套代码,多端运行” 是很多开发团队的梦想。ZEGO SDK 基于 uni-app 跨平台框架支持 iOS、Android、Windows、macOS、HarmonyOS、Web…
-
探索 GPUImage 音视频技术(17):高级视频技术
GPUImage 远不止简单地给视频加滤镜。本指南将深入探讨如何利用 GPUImage 以高性能、高质量的方式对视频进行复杂操作、合成与处理。
-
AU-Harness:用于音频 LLM 整体评估的开源工具包
语音AI正在成为多模态AI领域最重要的前沿领域之一。从智能助手到交互式代理,理解和推理音频的能力正在重塑机器与人类互动的方式。然而,尽管模型的能力迅速提升,但评估模型的工具却未能跟…
-
IBC2025:多功能视频编码增强边缘移动视频体验
即使在“旅途中”,消费者对视频内容的需求也达到了前所未有的高度。根据爱立信最新的移动报告,近74%的移动数据流量属于视频流量。 这一趋势为移动领域带来了新的需求,尤其是在体验质量 …
-
在 React 中基于 ZEGO Web SDK 实现音视频通话
本文将介绍如何基于 ZEGO Web SDK 快速使用 React 实现一个简单的实时音视频通话。
-
探索 GPUImage 音视频技术(16):处理原始数据
GPUImage 提供了直接操作原始像素数据(raw pixel data)的强大能力。无论是集成计算机视觉算法、处理自定义传感器数据,还是实现专用图像管线,掌握 GPUImage 的原始数据接口都能为应用打开更广阔的可能性。
-
TwinMind 推出 Ear-3 语音识别模型,现有 ASR 解决方案竞争的有力产品
总部位于加州的语音 AI 初创公司 TwinMind 发布了 Ear-3 语音识别模型,声称其在多项关键指标上均达到了业界领先水平,并扩展了多语言支持。此次发布使 Ear-3 成为…
-
火山引擎多媒体实验室重要突破!LiveGS 技术登榜 SIGGRAPH,重新定义移动端自由视角视频直播
近日,火山引擎多媒体实验室的最新研究成果 LiveGS: Live Free-Viewpoint Video via High-Performance Gaussian Splat…
-
Vue实现视频通话的两种方式
Vue.js 是一个流行的前端框架,被广泛应用于 Web 应用程序的开发中。除了常规的界面开发,Vue.js还可以与音视频处理相结合,实现流媒体和音视频编解码的功能。下面来看看 V…
-
Qwen3-ASR:阿里基于 Qwen3-Omni 构建的全新语音识别模型,实现更强大的语音识别性能
阿里云 Qwen 团队推出了Qwen3-ASR Flash,这是一种一体化自动语音识别 (ASR) 模型(可作为API 服务提供),建立在 Qwen3-Omni 的强大智能之上,可…
-
smart_rtpmd:一款用于直播,录播性能卓越的流媒体服务器
smart_rtpmd 是一款用于直播,录播性能卓越的服务器。如果您不理解,可以理解为和 nginx-rtmp, srs ,并与此功能类似,特点是性能卓越,跨平台,无依赖,部署和维…
-
探索 GPUImage 音视频技术(15):性能优化
GPUImage 的帧缓冲系统负责分配、复用和管理 OpenGL 资源,针对移动设备和实时处理做了专门优化。本文将深入 GPUImage 的帧缓冲管理机制及其重要性。
-
基于 WebRTC 的大规模直播: 助推直播渗透率与观播时长显著增长 | ACM SIGCOMM’25
本文介绍一项基于实时通信引擎 WebRTC 的大规模极低延时直播技术 RTM,并阐述如何对 RTM进行高效优化,从而实现用户参与度指标(直播渗透率、平均观播时长)的显著增长。
-
探索 GPUImage 音视频技术(14):创建自定义过滤器
GPUImage 最强大的特性之一,就是能够使用 OpenGL ES 2.0 着色器程序创建你自己的图像处理滤镜。本文将带你从零开始,逐步完成从简单颜色调整到复杂多输入特效的全部流程。
-
利用 ARM NEON 指令集加速:端侧 FFT 的高效实现
本文介绍下工程方法的内容,在移动设备和嵌入式系统中,高效的数字信号处理(DSP)算法至关重要。快速傅里叶变换(FFT)作为核心算法之一,其性能直接影响到音频处理、图像分析、通信等多…
-
更快 AI 的秘诀不是更多的 GPU,而是更智能的网络
AI 正在重塑医疗、金融、制造和零售等行业的可能性边界。但伴随巨大潜力而来的,是海量基础设施需求。 全球企业正以史无前例的规模投资 GPU,以加速 AI 训练与推理。Gartner…
-
ERVQ: 基于内外码本优化的增强残差矢量量化神经音频编解码器 | TASLP2025
本文提出了一种新的量化方法(ERVQ),其通过码本内和码本间优化来减轻码本崩溃并提高编解码器性能。实验表明,融入到多种神经音频后均能起到较好的性能提升效果。 文章来源:TASLP …