技术文章 - 实时互动网第52页

技术文章

LTX-Video：开创性的实时视频生成开源模型，在 ComfyUI 中提供 DayOne 原生支持

Lightricks 是一家以创意工具创新技术进步而闻名的公司，它推出了突破性的视频生成开源模型LTX Video (LTXV)。LTXV 为行业树立了标杆，在发布第一天就在 Co…

视频技术

2024年11月25日

技术文章

Apple 发布 AIMv2：先进的开放式视觉编码器系列

多年来，视觉模型得到了长足的发展，每一次创新都能解决以往方法的局限性。在计算机视觉领域，研究人员经常面临如何平衡复杂性、通用性和可扩展性的挑战。目前的许多模型都难以有效地处理各种视…

AIGC

2024年11月25日

WebRTC

WebRTC vs WebSockets：主要区别是什么？

本文重点论述了WebRTC 、WebSocket协议，两者的区别、使用场景、以及何时可以组合使用。 1. 什么是WebRTC？ WebRTC 是一组 JavaScript API，…

RTC观主

2024年11月22日

技术文章

微软研究院推出 Reducio-DiT：通过高级压缩技术提高视频生成效率

视频生成模型的最新进展使得人们能够制作出高质量、逼真的视频片段。然而，由于训练和推理所需的计算量，这些模型在大规模实际应用中面临挑战。目前的商用模型如 Sora、Runway Ge…

视频技术

2024年11月22日

技术文章

OpenSIPS 发布新 Python 包，让集成更简单、更快速、更高效

在当今的集成服务世界中，OpenSIPS 与外部应用程序交互的能力不再是可选的 – 而是一种必需品。为了满足这种必要性，OpenSIPS 发布了一个新的 Python …

RTC观主

2024年11月21日

即时通讯

在 React 应用程序中构建安全的实时聊天：使用 Socket.IO 和 CryptoJS 的指南

虽然端到端加密是信息安全的黄金标准，但许多平台需要更灵活的方法。企业通常需要信息访问来解决争议、保证质量或遵守法律。本文展示了一种兼顾安全性和业务需求的实用解决方案。对于刚刚开始…

IM开发老王

2024年11月20日

实时音视频

播放器的音视频同步问题分析和解决丨音视频实战经验

音视频实战经验——播放器的音视频同步问题分析和解决，来自公众号关键帧Keyframe的分享。 1、原因和解决思路播放器的音视频出现同步问题一般有以下原因和解决思路： 1）解码耗时…

RTC观主

2024年11月20日

即时通讯

哔哩哔哩客服坐席调度系统的演进

本文详细探讨了哔哩哔哩客服坐席调度系统的演进，特别是在线客服和工单客服的调度策略。随着客户需求的增加，尤其是在大型活动期间，客服系统面临着突发的高流量和复杂的客户问题。为了提高服务…

大厂Animal

2024年11月19日

实时音视频

Netflix 泰森与保罗直播大战出了什么问题？了解背后的点播和直播技术

一直以来，Netflix 都是向全球数百万观众提供高质量视频点播内容的标杆。他们在提供静态内容方面的专业技术几乎无与伦比。然而，在最近的一次直播活动中，即备受瞩目的杰克-保罗对迈克…

直播技术

2024年11月19日

技术文章

如何利用多播为 VoIP、UC 和视频系统助力

通过利用多播，组织可以优化网络带宽使用率，并在视频会议、多媒体广播和其他类似场景中支持更多并发用户。这使得多播成为 UC 和VoIP 解决方案的关键组成部分，从而提供更高效、更经…

RTE基础设施

2024年11月19日

技术文章

LLaVA-o1：一个能够进行与 GPT-o1 类似的自发、系统推理的视觉语言模型

视觉语言模型 (VLM) 的开发在处理复杂的视觉问答任务方面面临挑战。尽管 OpenAI 的 GPT-o1 等大型语言模型在推理能力方面取得了长足进步，但 VLM 仍然难以进行系统…

AIGC

2024年11月19日

技术文章

Nexa AI 发布 OmniVision-968M：最小的视觉语言模型，可为边缘设备减少 9 倍的 Token 数量

边缘人工智能长期以来一直面临着平衡效率和有效性的挑战。由于边缘设备规模大、计算需求高以及延迟问题，在边缘设备上部署视觉语言模型 (VLM) 非常困难。为云环境设计的模型通常会因边缘…

AIGC

2024年11月18日

技术文章

图像识别需要了解的 AI 模型

图像识别已成为许多行业不可分割的一部分。这项技术的核心主要围绕更复杂的 AI 图像识别模型。此类模型使机器能够以几乎完美的准确度定位、分类和理解视觉信息。让我们深入了解将图像识别从…

图像处理

2024年11月18日

技术文章

WebAssembly FFmpeg H.265解码的SIMD加速

WebAssembly FFmpeg H.265解码的SIMD加速。从测试效果来看，编译器自动向量化加速效果明显，手写加速效果更好，在Intel 12700和Apple M1上实现WebAssembly单线程解码1080P 140FPS问题不大。

FFmpeg笔记

2024年11月17日

实时音视频

B站直播S14保障全解析：高效保障技术实践

在高并发、大流量的互联网时代，如何在大型活动期间保障系统的稳定性和用户的流畅体验，是每个技术团队都面临的挑战。本文以B站直播团队在英雄联盟2024赛季全球总决赛（S14）期间的保障…

大厂Animal

2024年11月15日

实时音视频

音视频面试题集锦第 39 期｜视频编辑 SDK 方向

音视频面试题集锦第 39 期，来自音视频技术社群关键帧的音视频开发圈。下面是大厂音视频面试中，关于视频编辑 SDK 的面试题提纲： 1、音视频编辑 SDK 核心架构设计问题描述…

RTC观主

2024年11月15日

WebRTC

Broadcast Box：基于WebRTC的实时广播盒子

Broadcast Box 是一套服务器端的开源部署解决方案。用户使用广播盒子可以在不到一秒的时间内向他人广播。它的设计简单易用且易于修改。这种广播解决方案的目的是通过实时部署的方…

RTC观主

2024年11月14日

技术文章

在统一通信网络中应用 QoS 的基本步骤

VoIP、统一通信 (UC)、视频会议和协作系统等网络服务从根本上取决于底层网络基础设施的质量和稳健性。在部署企业网络时，必须执行合理的网络设计原则，以保证最佳的性能、可靠性和可扩…

RTE基础设施

2024年11月14日

WebRTC

掌握 STUN 和 TURN 服务器：WebRTC 应用程序正确集成指南

在 WebRTC 看似无缝的体验背后，是一个复杂的服务器和协议网络，用于管理浏览器、本地应用程序和媒体服务器之间的实时点对点连接。建立和维护这些连接需要多个步骤，每个步骤对于可靠和…

webrtc学习和实践

2024年11月14日

技术文章

DeepSeek AI 发布 JanusFlow：图像理解和生成的统一框架

人工智能驱动的图像生成和理解领域取得了快速进展，但重大挑战阻碍了无缝统一方法的发展。目前，擅长图像理解的模型往往难以生成高质量的图像，反之亦然。需要为每个任务维护单独的架构不仅增加…

图像处理

2024年11月14日