技术文章
-
Vue实现视频通话的两种方式
Vue.js 是一个流行的前端框架,被广泛应用于 Web 应用程序的开发中。除了常规的界面开发,Vue.js还可以与音视频处理相结合,实现流媒体和音视频编解码的功能。下面来看看 V…
-
Qwen3-ASR:阿里基于 Qwen3-Omni 构建的全新语音识别模型,实现更强大的语音识别性能
阿里云 Qwen 团队推出了Qwen3-ASR Flash,这是一种一体化自动语音识别 (ASR) 模型(可作为API 服务提供),建立在 Qwen3-Omni 的强大智能之上,可…
-
smart_rtpmd:一款用于直播,录播性能卓越的流媒体服务器
smart_rtpmd 是一款用于直播,录播性能卓越的服务器。如果您不理解,可以理解为和 nginx-rtmp, srs ,并与此功能类似,特点是性能卓越,跨平台,无依赖,部署和维…
-
探索 GPUImage 音视频技术(15):性能优化
GPUImage 的帧缓冲系统负责分配、复用和管理 OpenGL 资源,针对移动设备和实时处理做了专门优化。本文将深入 GPUImage 的帧缓冲管理机制及其重要性。
-
基于 WebRTC 的大规模直播: 助推直播渗透率与观播时长显著增长 | ACM SIGCOMM’25
本文介绍一项基于实时通信引擎 WebRTC 的大规模极低延时直播技术 RTM,并阐述如何对 RTM进行高效优化,从而实现用户参与度指标(直播渗透率、平均观播时长)的显著增长。
-
探索 GPUImage 音视频技术(14):创建自定义过滤器
GPUImage 最强大的特性之一,就是能够使用 OpenGL ES 2.0 着色器程序创建你自己的图像处理滤镜。本文将带你从零开始,逐步完成从简单颜色调整到复杂多输入特效的全部流程。
-
利用 ARM NEON 指令集加速:端侧 FFT 的高效实现
本文介绍下工程方法的内容,在移动设备和嵌入式系统中,高效的数字信号处理(DSP)算法至关重要。快速傅里叶变换(FFT)作为核心算法之一,其性能直接影响到音频处理、图像分析、通信等多…
-
更快 AI 的秘诀不是更多的 GPU,而是更智能的网络
AI 正在重塑医疗、金融、制造和零售等行业的可能性边界。但伴随巨大潜力而来的,是海量基础设施需求。 全球企业正以史无前例的规模投资 GPU,以加速 AI 训练与推理。Gartner…
-
ERVQ: 基于内外码本优化的增强残差矢量量化神经音频编解码器 | TASLP2025
本文提出了一种新的量化方法(ERVQ),其通过码本内和码本间优化来减轻码本崩溃并提高编解码器性能。实验表明,融入到多种神经音频后均能起到较好的性能提升效果。 文章来源:TASLP …
-
ZEGO即时通讯SDK 2.22.0 版本发布,新增取消媒体消息发送和获取回执已读时间等功能
上周五,ZEGO 即时通讯 SDK(ZIM) 2.22.0 版本发布,新增取消媒体消息发送、获取回执已读时间和获取房间用户扩展字段等功能。 ZIM 新增功能 取消媒体消息发送 用户…
-
探索 GPUImage 音视频技术(13):滤镜链
本文将介绍 GPUImage 中滤镜链的工作原理,并示范如何创建并管理高效的滤镜链。
-
Hugging Face 开源 FineVision:一个包含 2400 万个样本的全新多模态数据集,用于训练视觉语言模型
Hugging Face 刚刚发布了FineVision,这是一个开放的多模态数据集,旨在为视觉语言模型 (VLM) 树立新标准。FineVision 拥有1730 万张图片、24…
-
Tilde AI 发布 TildeOpen LLM:一个拥有超过 300 亿个参数并支持大多数欧洲语言的开源大语言模型
拉脱维亚语言科技公司 Tilde 发布了 TildeOpen LLM ,这是一款专为欧洲语言构建的开源基础大型语言模型 (LLM) ,重点关注代表性不足且规模较小的国家和地区语言。…
-
Node.js:在不耗尽 CPU 的情况下扩展 WebSocket
了解如何在 Node.js 中高效扩展WebSockets,通过集群、负载均衡、Redis 发布/订阅(pub/sub)及实战模式实现,避免 CPU 飙升。 若你曾启动 Node….
-
探索 GPUImage 音视频技术(12):帧缓冲区管理
GPUImage 的帧缓冲系统负责分配、复用和管理 OpenGL 资源,针对移动设备和实时处理做了专门优化。本文将深入 GPUImage 的帧缓冲管理机制及其重要性。
-
OLMoASR 是什么?它与 OpenAI 的语音识别 Whisper 相比如何?
艾伦人工智能研究所 (AI2) 发布了OLMoASR,这是一套开放的自动语音识别 (ASR)模型,可与 OpenAI 的 Whisper 等闭源系统相媲美。除了发布模型权重外,AI…
-
快手与清华大学联合提出灵犀系统,重新定义个性化视频体验 | SIGCOMM 2025
本文介绍了一种创新的视频流优化系统:灵犀系统。这是业界首个成功部署在大规模生产环境中、面向用户个性化体验的自适应视频流优化系统。
-
听见空间:ASAudio 空间音频表示、理解与生成的全景综述
近几年,空间音频从“更高质量到音频”走向“可被理解与生成的三维声场”。它不只是把声音变“立体”,而是让系统理解声源的方位、距离、运动,并能按需生成。在 AR/VR、影视、…
-
面向 DevOps 的可扩展 WebRTC VoIP 架构的六大核心组件
WebRTC VoIP 系统支持通过网页浏览器和移动应用直接进行语音通话,无需下载任何软件或插件。这使其成为客户支持平台、远程医疗咨询、销售通话以及任何需要添加语音通信功能却不要求…
-
探索 GPUImage 音视频技术(11):渲染管线
GPUImage 通过精心设计的渲染管线,利用 GPU(图形处理单元)的强大算力解决了这一难题。本文阐述 GPUImage 如何编排 GPU 渲染管线,以实现高性能的图像与视频处理。