技术文章
-
语聊房实现流程(语音聊天室怎么创建)
在上一篇文章中,我们介绍了语聊房的基本概念和应用场景,本文我们来看下语聊房方案架构和具体的实现流程。 ZEGO即构科技语聊房是指在线语音连麦虚拟房间。在本方案中,每个房间设有若干个…
-
探索 GPUImage 音视频技术(2):快速入门
GPUImage 是一个专为 iOS / macOS 设计的 GPU 加速图像与视频处理框架。只需少量代码即可实现:静态图片滤镜、实时摄像头滤镜和视频文件滤镜等功能。
-
NVIDIA AI 发布 Streaming Sortformer:实时说话人日志分析工具,可立即识别会议和通话中谁在说话
NVIDIA 发布了 Streaming Sortformer,这是实时说话人日志记录领域的一项突破,即使在嘈杂的多说话人环境中,也能即时识别并标记会议、通话和语音应用中的参与者。…
-
微信小程序语音视频通话功能 | 基于微信原生组件实现通话
本文将介绍如何使用微信小程序原生推拉流组件 <live-pusher> 和 <live-player>进行推拉流,通过集成ZEGO 音视频SDK快速实现一个简单的实时音…
-
探索 GPUImage 音视频技术(1):概述
这个系列文章我们来介绍一位海外工程师如何探索 GPUImage 音视频技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,本篇介绍 GPUImage 概述。 ——来…
-
信号与噪声:解锁可靠的大语言模型 (LLM) 评估,助力更优的AI决策
评估大语言模型(LLM)的成本在科学和经济上都耗资巨大。随着该领域竞相开发更大规模的模型,评估和比较这些模型的方法变得越来越重要,不仅是为了基准分数,更是为了做出明智的开发决策。艾…
-
突破噪音:新一代 AI 如何改变语音分离技术
你是否曾在虚拟会议中遇到多人同时发言,几乎无法跟上对话内容的情况?又或者,你是否曾体验过与智能音箱对话时,背景噪音盖过指令,令人沮丧?基于 AI 的语音分离技术的最新进展有望改变这…
-
小程序如何实现IM即时通讯多人聊天
目前微信小程序IM即时通讯多人聊天应用非常广泛,比如电商购物场景,买家和卖家、客服之间需要通信,发送文本、图片、订单等消息;互动直播场景中的弹幕消息、礼物消息,语聊房内的麦位控制等…
-
语音SDK是什么意思?即构语音SDK有哪些优势
语音SDK是什么意思 语音SDK简单来说就是一个软件开发工具包,集合了许多语音服务功能,开发者通过集成 SDK 可以快速实现各种语音类功能。 比如即构实时语音SDK(Express…
-
B站第三代转码体系下流式转码测试实践
B站第三代转码体系下引入了流式转码,以解决同稿件下多条转码任务的重复切片问题、转码临时产物大文件导致的耗时问题,以及非必要的IO和算力开销问题。
-
WebRTC SDK实现一个简单的实时音视频通话
本文介绍如何基于ZEGO即构科技的 WebRTC SDK(ZEGO Express Web SDK)快速实现一个简单的实时音视频通话。 WebRTC 是一个支持网页浏览器进行实时语…
-
技术洞察:音频驱动口型生成技术解析 | 咪咕灯塔智库
写在前面:在 AIGC 时代,数字人和影视动画行业快速发展,如何让角色的口型与音频完美同步,成为提升沉浸感的关键技术之一。音频驱动口型生成技术,通过算法将音频信号转化为逼真的唇形动…
-
模型上下文协议 MCP 是 AI 基础设施中缺失的标准吗?
本文将深入探讨 MCP 的起源、技术原理、优势、局限性、实际应用以及未来发展轨迹,并借鉴行业领袖的见解和截至 2025 年中期的早期实施案例。
-
播放器视频后处理实践(一)
本文将系统介绍我们在播放器视频后处理模块中的技术方案与工程实现,涵盖从效果设计、算法选型,到性能优化和跨平台兼容的全链路细节。
-
如何在云端录制中录制完整动态 PPT(ppt动画怎么录制)
在远程会议、在线教育场景中,使用具备动画效果的动态 PPT 可以快速引起观看者的兴趣,通过在 PPT 内添加丰富的动画效果和音、视频内容,也可以让观众快速理解主讲人所表达的观点。 …
-
Cocos Creator 中如何实现音视频通话功能
本文将介绍如何基于即构 Cocos Creator音视频SDK 快速实现一个简单的实时音视频通话。 即构 Cocos Creator 音视频SDK 能够为开发者提供便捷接入、高清流…
-
如何利用 SEI 解决音画不同步的问题
本文将从 SEI 的基础概念出发,结合数据流录制回放的需求和应用场景,带大家了解一下 ZEGO即构科技是如何利用 SEI 去解决音画不同步的问题,以及开发过程中可能踩到的坑。
-
如何使用 Amazon Nova Sonic 和 WebSockets 构建完整的语音对话系统
随着人工智能技术的飞速发展,自然语言处理和语音交互技术正在深刻改变人机交互的方式。语音交互正从简单的“机械应答”向更自然的“类人对话”演进。 传统的语音系统通常采用模块化架构,将语…
-
avr-infra:基于 Asterisk 集成 Core、ASR、LLM 和 TTS 开源服务
Agent Voice Response (AVR) 是一款基于 Asterisk 构建的 Docker 可部署对话式 AI 系统。选择您偏好的 ASR、LLM 和 TTS 提供商…
-
语音通话开源示例1:语聊房demo示例源码及运行指引
本文提供 ZEGO 语聊房demo示例源码及运行指引,方便开发者快速体验 ZEGO 语音通话SDK产品功能。 语聊房是指在线语音连麦虚拟房间,每个房间设有4-8个麦位,主播在麦上聊…