技术文章
-
Tilde AI 发布 TildeOpen LLM:一个拥有超过 300 亿个参数并支持大多数欧洲语言的开源大语言模型
拉脱维亚语言科技公司 Tilde 发布了 TildeOpen LLM ,这是一款专为欧洲语言构建的开源基础大型语言模型 (LLM) ,重点关注代表性不足且规模较小的国家和地区语言。…
-
Node.js:在不耗尽 CPU 的情况下扩展 WebSocket
了解如何在 Node.js 中高效扩展WebSockets,通过集群、负载均衡、Redis 发布/订阅(pub/sub)及实战模式实现,避免 CPU 飙升。 若你曾启动 Node….
-
探索 GPUImage 音视频技术(12):帧缓冲区管理
GPUImage 的帧缓冲系统负责分配、复用和管理 OpenGL 资源,针对移动设备和实时处理做了专门优化。本文将深入 GPUImage 的帧缓冲管理机制及其重要性。
-
OLMoASR 是什么?它与 OpenAI 的语音识别 Whisper 相比如何?
艾伦人工智能研究所 (AI2) 发布了OLMoASR,这是一套开放的自动语音识别 (ASR)模型,可与 OpenAI 的 Whisper 等闭源系统相媲美。除了发布模型权重外,AI…
-
快手与清华大学联合提出灵犀系统,重新定义个性化视频体验 | SIGCOMM 2025
本文介绍了一种创新的视频流优化系统:灵犀系统。这是业界首个成功部署在大规模生产环境中、面向用户个性化体验的自适应视频流优化系统。
-
听见空间:ASAudio 空间音频表示、理解与生成的全景综述
近几年,空间音频从“更高质量到音频”走向“可被理解与生成的三维声场”。它不只是把声音变“立体”,而是让系统理解声源的方位、距离、运动,并能按需生成。在 AR/VR、影视、…
-
面向 DevOps 的可扩展 WebRTC VoIP 架构的六大核心组件
WebRTC VoIP 系统支持通过网页浏览器和移动应用直接进行语音通话,无需下载任何软件或插件。这使其成为客户支持平台、远程医疗咨询、销售通话以及任何需要添加语音通信功能却不要求…
-
探索 GPUImage 音视频技术(11):渲染管线
GPUImage 通过精心设计的渲染管线,利用 GPU(图形处理单元)的强大算力解决了这一难题。本文阐述 GPUImage 如何编排 GPU 渲染管线,以实现高性能的图像与视频处理。
-
DataChannel、WebTransport 与 WebSockets 的区别:何时使用哪种方案
实时应用程序现在有三种强大的浏览器选项可用于数据传输:WebRTC DataChannel、WebTransport 和 WebSockets。它们之间功能有重叠,但不可互换。选择…
-
语音聊天接口(API)有哪些? ZEGO 语音聊天接口常用功能
什么是语音聊天接口? 本文所讲的语音聊天接口,也就是语音聊天 API,是用于实现语音聊天功能的应用程序编程接口。借助它开发者能够在APP、小程序、Web、物联网设备等应用上实现一对…
-
探索 GPUImage 音视频技术(9):视觉特效滤镜
GPUImage 的视觉特效滤镜让你能以 GPU 实时渲染的方式,对图片或视频施加从“轻微修饰”到“戏剧性艺术化”的丰富效果。它们不仅适用于照片编辑 App,也能在相机或视频处理系统中大显身手。
-
解锁通信:可编程语音 API 综合指南
可编程语音 API 正在改变企业与客户互动的方式,这些先进的工具提供了前所未有的语音通信控制和定制能力,使企业能够打造独特的客户体验并简化运营。随着各行各业持续拥抱数字化转型,整合…
-
KCP协议应用详解:为速度而生的可靠传输协议
在当今互联网应用中,实时性和流畅性至关重要,尤其是在网络游戏、视频会议和在线直播等场景中。传统的TCP协议虽然提供可靠的数据传输,但其复杂的拥塞控制机制和重传策略会导致较高的延迟,…
-
探索 GPUImage 音视频技术(8):混合模式过滤器
GPUImage 提供了 30 余种混合(Blend)滤镜,用于将两张图片的像素按不同算法混合,产生 Photoshop 级的效果。
-
SRT 实践:打造更智能、可扩展的直播基础设施
如今,随着体育、新闻、娱乐和远程工作流程中现场制作需求的不断扩展,广播运营面临着日益复杂的挑战,而资源和网络的限制也愈发严格。为了跟上时代的步伐,许多广播公司正在重新评估其运营核心…
-
探索 GPUImage 音视频技术(7):颜色调整过滤器
GPUImage 提供了 20+ 种 GPU 加速的色彩滤镜,覆盖亮度、对比度、饱和度、色调、色温、曲线、LUT 等全部常见场景,可在 实时视频 / 静态图片上零延迟运行。
-
Nous Research 发布 Hermes 4:具有混合推理能力的开放权重 AI 模型系列
Nous Research发布了Hermes 4,这是一个开放权重模型系列(基于 Llama 3.1 检查点,参数大小分别为 14B、70B 和 405B),通过纯粹的后训练技术实…
-
SIPGO:基于Go语言开发的开源SIP协议库
SIPGO是一个用于在 GO 语言中编写高速 SIP 服务的库。 它配备了针对快速解析优化的 SIP 协议栈(RFC 3261|RFC3581|RFC6026)。
-
前端直播功能开发(React/Next/Vue/Angular等框架),请务必收下这篇教程
近年来,前端开发框架层出不穷,根据 2023 年 GitHub 上全球 npm 累计下载量数据显示,React、Next、Vue、Angular 和 Preact 占据前五位[1]…
-
探索 GPUImage 音视频技术(6):架构总览
GPUImage 基于 OpenGL ES 2.0 管线模型,将「生成 → 处理 → 输出」拆成三大角色,全部以 GPU 纹理为数据载体,实现高性能、可组合、易扩展的图像 / 视频框架。