技术文章
-
vivo Pulsar 万亿级消息处理实践(4)-Ansible运维部署
Pulsar作为下一代云原生架构的分布式消息中间件,存算分离的架构设计能有效解决大数据场景下分布式消息中间件老牌一哥“Kafka”存在的诸多问题,2021年vivo 分布式消息中间…
-
Mistral AI 推出 Mistral Medium 3.1:以卓越的性能和可用性增强 AI
Mistral AI 推出了Mistral Medium 3.1,在多模态智能、企业级应用以及大语言模型 (LLM) 的成本效益方面树立了新的标杆。凭借其快速发展的 AI 技术,M…
-
语聊房是什么?语聊房应用场景和功能
随着音视频直播行业的发展,由于语音可承载的信息密度比文字图片更丰富,使用门槛比视频又更简便,是天然的社交工具,很多产品在社交领域以语聊房的方式做了尝试,比如职场社交脉脉、语音社交鱼…
-
NVIDIA AI 发布 ProRLv2:通过扩展强化学习 RL 推进语言模型推理
什么是 ProRLv2? ProRLv2是 NVIDIA 延长强化学习 (ProRL) 的最新版本,专为突破大语言模型 (LLM) 的推理能力而设计。通过将强化学习 (RL) 步数…
-
标签数量从 10 万减少到 500 以下:谷歌 AI 如何大幅缩减 LLM 训练数据
谷歌研究院公布了一种用于微调大语言模型 (LLM) 的突破性方法,该方法可将所需的训练数据量减少高达 10,000 倍,同时保持甚至提升模型质量。该方法以主动学习为核心,并将专家的…
-
Enable Security 首席执行官 Sandro Gauci 分享 VoIP 和实时通信安全领域洞见
二十多年来,Enable Security 公司首席执行官 Sandro Gauci 一直站在 VoIP 和实时通信安全的最前沿。他的职业生涯始于 2000 年代初的马耳他,当时他…
-
MPEG-4 vs H.264 vs MP4 有什么区别?
MPEG-4 video、H.264(AVC)、MP4 都是 MPEG-4 标准组的一部分,因此它们之间容易混淆。 H.264(AVC)编解码器从 MPEG-4 Visual 中吸…
-
支付宝小程序如何实现音视频通话
你们的小程序音视频SDK支持支付宝吗?支付宝小程序如何实现音视频通话?有不少开发者都咨询过这些问题。这里统一回答一下,目前,Zego 支付宝小程序 SDK 版本仅支持 1v1 音视…
-
OpenAI 发布了 GPT-5:最智能、最快、最实用的 OpenAI 模型
OpenAI 刚刚发布了GPT-5,标志着生成式 AI 的重大飞跃,引入了可同时处理通用任务和高度专业化任务的高级功能。本文将深入探讨 GPT-5 的架构、新功能、性能改进以及其对…
-
InfiniBand 与 RoCEv2:为大规模 AI 选择合适的网络
GPU 是人工智能的基础计算引擎。然而,在大规模训练环境中,整体性能的限制并非在于处理速度,而是在于它们之间的网络通信速度。 大型语言模型需要在数千个 GPU 上进行训练,这会产生…
-
Peermetrics WebRTC 分析平台评测:开源监控与调试
WebRTC 应用程序面临着传统监控工具无法应对的独特运行挑战。与传统的网络应用不同,实时通信系统的运行需要复杂的点对点连接、动态网络条件和媒体处理管道,这些因素可能会无声无息地发…
-
使用 FFmpeg 和 Bash 自动处理视频帧和 HLS
大规模处理体育或赛事视频片段涉及一系列复杂、重复的任务,比如从分割视频到生成缩略图以及上传到云存储。在本文中,我们将使用 FFmpeg、AWS S3 和 PostgreSQL 探索…
-
轻松扩展直播:高效可靠地连接“中间一英里”
直播已成为媒体生态系统的基础组成部分。如今,无论观众是通过手机、平板电脑还是联网电视观看,他们都期望获得与主流广播公司同等的体验:高质量的视频、无缓冲、零中断。随着人们对流媒体内容…
-
OpenAI 发布开放权重 LLM:gpt-oss-120B(可在电脑上运行)和 gpt-oss-20B(可在手机上运行)
OpenAI 刚刚在 AI 领域掀起了一股震撼:自 2019 年 GPT-2 发布以来,该公司首次发布了不止一个,而是两个开放权重语言模型:GPT-OSS-120b 和 GPT-O…
-
B站是如何实现原声视频翻译的
BILIBILI Index 团队将系统性地介绍将中文视频翻译为外语的原声风格配音的技术架构与核心挑战,并分享他们在实践中如何逐步实现这些目标。
-
什么是AI工厂?AI工厂组成、应用场景及布局
在过去几年里,AI 的需求呈指数级增长。与网站和文件存储服务竞争传统数据中心提供的计算资源是不可持续的,尤其是随着 AI 模型变得越来越复杂,越来越多的行业采用这些模型。世界需要一…
-
播放器音频后处理实践(一)
本文内容聚焦在两项核心基础音效:重低音和清晰人声。分享两项音效的整体处理流程、关键滤镜链搭建方式、滤波器设计细节,以及如何在保证延迟与功耗可控的前提下,通过 FFmpeg 的 audio filter 机制灵活插拔各类处理节点。
-
LLM 中上下文工程的技术路线图:机制、基准和开放挑战
论文《大语言模型的上下文工程综述》将上下文工程确立为一门超越即时工程的正式学科,为设计、优化和管理指导大语言模型 (LLM) 的信息提供了一个统一的系统框架。 以下是其主要贡献和框…
-
如何使用 NestJS 作为 WebRTC 视频聊天的信令服务器
在本文中,我们将使用 WebRTC(用于浏览器直接通信)和 NestJS(作为信令服务器)构建一个点对点视频聊天应用程序。您将了解浏览器如何建立直接连接以及信令服务器在此过程中的作…
-
持续的观看体验质量需要采取积极主动的方法
如今的观众对播放问题的期望很高,但耐心却很少! 体验质量塑造品牌认知。如果视频启动缓慢、播放过程中缓冲或分辨率明显下降,就会迅速损害用户信任,引发负面评价,并最终导致订阅用户流失。…