技术文章
-
Cocos Creator 中如何实现音视频通话功能
本文将介绍如何基于即构 Cocos Creator音视频SDK 快速实现一个简单的实时音视频通话。 即构 Cocos Creator 音视频SDK 能够为开发者提供便捷接入、高清流…
-
如何利用 SEI 解决音画不同步的问题
本文将从 SEI 的基础概念出发,结合数据流录制回放的需求和应用场景,带大家了解一下 ZEGO即构科技是如何利用 SEI 去解决音画不同步的问题,以及开发过程中可能踩到的坑。
-
如何使用 Amazon Nova Sonic 和 WebSockets 构建完整的语音对话系统
随着人工智能技术的飞速发展,自然语言处理和语音交互技术正在深刻改变人机交互的方式。语音交互正从简单的“机械应答”向更自然的“类人对话”演进。 传统的语音系统通常采用模块化架构,将语…
-
avr-infra:基于 Asterisk 集成 Core、ASR、LLM 和 TTS 开源服务
Agent Voice Response (AVR) 是一款基于 Asterisk 构建的 Docker 可部署对话式 AI 系统。选择您偏好的 ASR、LLM 和 TTS 提供商…
-
语音通话开源示例1:语聊房demo示例源码及运行指引
本文提供 ZEGO 语聊房demo示例源码及运行指引,方便开发者快速体验 ZEGO 语音通话SDK产品功能。 语聊房是指在线语音连麦虚拟房间,每个房间设有4-8个麦位,主播在麦上聊…
-
uni-app美颜SDK:在uni-app实现音视频美颜滤镜功能
uni-app 是一个使用 Vue.js 开发所有前端应用的框架,开发者编写一套代码,可发布到iOS、Android、Web(响应式)、以及各种小程序(微信/支付宝/百度/头条/飞…
-
MNN LLM Chat iOS 流式输出优化实践
本文介绍了在 iOS 平台上使用 MNN 框架部署大语言模型(LLM)时,针对聊天应用中文字流式输出卡顿问题的优化实践。通过分析模型输出与 UI 更新不匹配、频繁刷新导致性能瓶颈以…
-
内容分发网络:CDN 和 eCDN 之间有什么区别?
快速发展的数字化工作场所要求企业越来越依赖视频,从内部直播到混合工作场所的流媒体。Microsoft Teams 和 Zoom 等协作工具的兴起加速了这一趋势,使得可靠、安全、高质…
-
为什么每个人都在衡量编码器的计算效率
提供高质量观看体验并降低成本的能力,正在成为各地流媒体视频运营团队的追求。无论您的业务模式是围绕免费广告支持流媒体 (FAST) 还是基于订阅的优质内容,转码都是与制作相关的最重要…
-
Guardrails AI 推出 Snowglobe:AI 代理和聊天机器人的模拟引擎
Guardrails AI 宣布全面推出 Snowglobe,这是一款突破性的模拟引擎,旨在解决对话式 AI 中最棘手的挑战之一:在 AI 代理/聊天机器人投入生产之前对其进行大规…
-
什么是AI降噪?AI降噪在音视频通话中的应用
清晰的音视频质量对于有效沟通至关重要。 无论是视频会议、电话、直播还是语音社交,背景噪音都会显著降低聆听体验并阻碍沟通。 随着人工智能 (AI) 的进步,AI 降噪技术成为应对这一…
-
FFmpeg 开发中的 10 个实用小技巧
FFmpeg 是一个强大的多媒体框架,开发过程中掌握一些小技巧可以大大提高效率。以下是一些实用的开发技巧: 调试技巧 1. 启用详细日志 2. 检查返回值 性能优化 3. 使用硬件…
-
vivo Pulsar 万亿级消息处理实践(4)-Ansible运维部署
Pulsar作为下一代云原生架构的分布式消息中间件,存算分离的架构设计能有效解决大数据场景下分布式消息中间件老牌一哥“Kafka”存在的诸多问题,2021年vivo 分布式消息中间…
-
Mistral AI 推出 Mistral Medium 3.1:以卓越的性能和可用性增强 AI
Mistral AI 推出了Mistral Medium 3.1,在多模态智能、企业级应用以及大语言模型 (LLM) 的成本效益方面树立了新的标杆。凭借其快速发展的 AI 技术,M…
-
语聊房是什么?语聊房应用场景和功能
随着音视频直播行业的发展,由于语音可承载的信息密度比文字图片更丰富,使用门槛比视频又更简便,是天然的社交工具,很多产品在社交领域以语聊房的方式做了尝试,比如职场社交脉脉、语音社交鱼…
-
NVIDIA AI 发布 ProRLv2:通过扩展强化学习 RL 推进语言模型推理
什么是 ProRLv2? ProRLv2是 NVIDIA 延长强化学习 (ProRL) 的最新版本,专为突破大语言模型 (LLM) 的推理能力而设计。通过将强化学习 (RL) 步数…
-
标签数量从 10 万减少到 500 以下:谷歌 AI 如何大幅缩减 LLM 训练数据
谷歌研究院公布了一种用于微调大语言模型 (LLM) 的突破性方法,该方法可将所需的训练数据量减少高达 10,000 倍,同时保持甚至提升模型质量。该方法以主动学习为核心,并将专家的…
-
Enable Security 首席执行官 Sandro Gauci 分享 VoIP 和实时通信安全领域洞见
二十多年来,Enable Security 公司首席执行官 Sandro Gauci 一直站在 VoIP 和实时通信安全的最前沿。他的职业生涯始于 2000 年代初的马耳他,当时他…
-
MPEG-4 vs H.264 vs MP4 有什么区别?
MPEG-4 video、H.264(AVC)、MP4 都是 MPEG-4 标准组的一部分,因此它们之间容易混淆。 H.264(AVC)编解码器从 MPEG-4 Visual 中吸…
-
支付宝小程序如何实现音视频通话
你们的小程序音视频SDK支持支付宝吗?支付宝小程序如何实现音视频通话?有不少开发者都咨询过这些问题。这里统一回答一下,目前,Zego 支付宝小程序 SDK 版本仅支持 1v1 音视…