技术文章
-
2025 年为 Android 编译 WebRTC 静态二进制文件
本文分享将 WebRTC 从 M54(2016年版本)升级到 M128(2024年版本)的具体操作流程,从搭建工具链到生成 .a 静态库,这些成果可安全地应用于2025年的Android项目中。
-
探索 GPUImage 音视频技术(5):平台特定设置
GPUImage 同时支持 iOS(iPhone / iPad)与 macOS,底层均依赖 OpenGL / OpenGL ES 实现 GPU 加速。
-
NVIDIA AI 发布 Jet-Nemotron:速度提升 53 倍的混合架构语言模型系列,可降低大规模推理成本 98%
NVIDIA 研究人员突破了大语言模型 (LLM) 推理领域长期存在的效率障碍,发布了Jet-Nemotron模型系列(2B 和 4B),其生成吞吐量比领先的全注意力机制 LLM …
-
云计算、雾计算和边缘计算之间的区别
现代分布式计算架构支撑着 AI 和智能制造等重大技术进步。每种计算模型都是支持改变格局的先进应用的关键。 数字化企业拥有庞大的虚拟环境,需要灵活且具有弹性的基础设施来满足不断增长的…
-
多功能视频编码:轻松访问高清视频流的关键
当我们坐下来在线观看喜爱的短视频时,很少会考虑流媒体播放的过程——我们只是点击播放。实际上,视频编解码器会无缝地管理数据的压缩和解压缩,从而提供轻松、高质量的观看体验。例如,高效视…
-
探索 GPUImage 音视频技术(4):视频处理基础
这个系列文章我们来介绍一位海外工程师如何探索 GPUImage 音视频技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,本篇介绍 GPUImage 视频处理基础。…
-
SEA-LION v4:东南亚多模态语言模型
新加坡人工智能研究院 (AISG) 发布了 SEA-LION v4,这是一个与谷歌合作开发的开源多模态语言模型,基于 Gemma 3 (27B) 架构。该模型旨在支持东南亚语言,包…
-
VibeVoice-1.5B:微软开源文本转语音模型,可合成四个不同说话者长达 90 分钟的语音
微软最新开源版本 VibeVoice-1.5B 重新定义了文本转语音 (TTS) 技术的边界。提供富有表现力、长篇幅、多说话人生成的音频,该音频获得麻省理工学院 (MIT) 许可,…
-
Dante 如何将 NBC 体育的音频和通讯愿景变成现实
体育广播需要精准、可靠和创新,很少有机构能比 NBC 体育更好地体现这一点。多年来,该网络始终采用尖端技术来提升其制作水平,为数百万观众提供无缝衔接的转播。其工作流程中最具变革性的…
-
卫星网络直播:新技术解决70%的缓冲问题
直播日益普及,而全球仍有相当一部分人口缺乏可靠的互联网接入,这与其形成鲜明对比。新兴的低地球轨道卫星网络 (LSN) 提供了一种潜在的解决方案。 论文地址:https://arxi…
-
为什么 QT 的 Wasm 不支持 qtcpserver?如何实现
为什么 QT 的 WebAssembly(Wasm)不支持 qtcpserver?Wasm 本身的设计初衷和安全沙箱模型,决定了它不能直接提供 TCPServer 这样的能力。 因…
-
探索 GPUImage 音视频技术(3):基本图像过滤
GPUImage 利用 GPU 并行计算,可显著优于传统 CPU 处理。以下内容带你快速上手静态图片的滤镜应用。
-
GPZ:用于大规模粒子数据的新一代 GPU 加速有损压缩器
基于粒子的模拟和点云应用正在推动科学和商业数据集的规模和复杂性大幅扩张,其数量通常会跃升至数十亿甚至数万亿个离散点。如何在不影响现代 GPU 性能的情况下高效地减少、存储和分析这些…
-
语聊房实现流程(语音聊天室怎么创建)
在上一篇文章中,我们介绍了语聊房的基本概念和应用场景,本文我们来看下语聊房方案架构和具体的实现流程。 ZEGO即构科技语聊房是指在线语音连麦虚拟房间。在本方案中,每个房间设有若干个…
-
探索 GPUImage 音视频技术(2):快速入门
GPUImage 是一个专为 iOS / macOS 设计的 GPU 加速图像与视频处理框架。只需少量代码即可实现:静态图片滤镜、实时摄像头滤镜和视频文件滤镜等功能。
-
NVIDIA AI 发布 Streaming Sortformer:实时说话人日志分析工具,可立即识别会议和通话中谁在说话
NVIDIA 发布了 Streaming Sortformer,这是实时说话人日志记录领域的一项突破,即使在嘈杂的多说话人环境中,也能即时识别并标记会议、通话和语音应用中的参与者。…
-
微信小程序语音视频通话功能 | 基于微信原生组件实现通话
本文将介绍如何使用微信小程序原生推拉流组件 <live-pusher> 和 <live-player>进行推拉流,通过集成ZEGO 音视频SDK快速实现一个简单的实时音…
-
探索 GPUImage 音视频技术(1):概述
这个系列文章我们来介绍一位海外工程师如何探索 GPUImage 音视频技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,本篇介绍 GPUImage 概述。 ——来…
-
信号与噪声:解锁可靠的大语言模型 (LLM) 评估,助力更优的AI决策
评估大语言模型(LLM)的成本在科学和经济上都耗资巨大。随着该领域竞相开发更大规模的模型,评估和比较这些模型的方法变得越来越重要,不仅是为了基准分数,更是为了做出明智的开发决策。艾…
-
突破噪音:新一代 AI 如何改变语音分离技术
你是否曾在虚拟会议中遇到多人同时发言,几乎无法跟上对话内容的情况?又或者,你是否曾体验过与智能音箱对话时,背景噪音盖过指令,令人沮丧?基于 AI 的语音分离技术的最新进展有望改变这…