技术文章
-
webrtc demo功能示例(视频互动及通讯功能Demo)
该文章为即构科技webrtc的使用示例demo,希望帮助开发者快速上手webrtc-sdk;每个页面展示sdk一种功能,可根据实际场景自由组合。 WebRTC Demo 在线演示地…
-
音视频面试题集锦第 34 期|直播和视频播放器方向
音视频面试题集锦第 34 期,内容来自音视频技术社群关键帧的音视频开发圈。 下面是大厂音视频面试官常备的播放器面试题提纲,这些面试题覆盖了播放器 SDK 技术的主要方面,包括架构设…
-
使用 Pub/Sub 模型在 Flutter 中进行实时通信
在 Flutter 开发中,管理应用程序各个组件之间的通信是一项挑战,尤其是当您需要发送实时更新时。这正是 pub/sub(发布-订阅)模型的优势所在。在发布/订阅模型中,组件(订…
-
ffmpeg支持webrtc推流
作者:音视频小话来源:https://mp.weixin.qq.com/s/urFWlNYcOFs5OwCrre9WGA 1 前言 ffmpeg是音视频业界最著名的开源之一,支持多…
-
Meta AI 发布 LongVU:一种可解决长视频理解重大挑战的多模态大型语言模型
理解和分析长视频一直是人工智能领域的一大挑战,这主要是因为需要大量的数据和计算资源。由于上下文长度有限,传统的多模态大型语言模型 (MLLM) 难以处理大量视频内容。这一挑战对于长…
-
OpenSIPS 社区版:开源 SIP 平台/解决方案
2024年10月29日,OpenSIPS 官方博客表示考虑进一步采用开源模式,从代码层面扩展到解决方案/平台层面,实现这一目标的方法就是 OpenSIPS Community Ed…
-
音视频面试题集锦第 33 期 | 面试官针对编解码方向的追问
分享音视频面试题集锦第 33 期,内容来自音视频技术社群关键帧的音视频开发圈。 今天我们继续从一位音视频面试官的面试题库中,挑出他在编解码方向会追问候选人的问题,这些面试题覆盖了音…
-
Mini-InternVL: 多模态大语言模型 (MLLM) 1B 至 4B 系列,仅用 5%的参数就能实现 90% 的性能
多模态大型语言模型 (MLLM) 在人工智能领域发展迅速,它集成了视觉和语言处理功能,以增强对各种数据类型的理解和交互。这些模型通过将视觉和文本数据处理结合到一个连贯的框架中,在图…
-
如何快速实现APP中的IM即时聊天功能
如何快速实现APP中的IM即时聊天功能?本文主要分享IM开发的3种实现方式:包括使用开源、自研、以及使用厂商SDK的经验,希望对IM开发者有所帮助。
-
Flutter 中的 HTTP 和 WebSocket 有什么区别?
了解 Flutter 中 HTTP 和 WebSocket 通信之间的主要区别,以及何时使用它们来构建高效的应用程序。 在 Flutter 中,HTTP 和 WebSocket 都…
-
glTF:现在和未来
glTF™ 已不再只是一种独立的 3D 格式。它现已被采纳为ISO 国际标准,并成为快速扩张的软件工具、标准和扩展生态系统的核心。 鉴于 glTF 在实现跨不同平台、设备和网络的 …
-
图像识别中最强大的深度学习技术
图像识别已成为现代技术的基石,改变着医疗保健、零售、汽车和安防等行业。深度学习技术使机器能够非常准确地识别、分类和解释图像。这一进步的核心是复制人脑处理视觉信息方式的强大算法。下面…
-
SAM2Long:用于长视频分割的 SAM 2 免训练增强版
长视频分割涉及将视频分解成若干部分,以分析运动、遮挡和不同光线条件等复杂过程。它在自动驾驶、监控和视频编辑中有着多种应用。在长视频序列中准确分割对象具有挑战性,但也至关重要。困难在…
-
Meta AI 发布 NotebookLlama:谷歌 NotebookLM 的开放版本
Meta 最近发布了 NotebookLlama,这是 Google NotebookLM 的开放版本,它为研究人员和开发人员提供了可访问、可扩展的交互式数据分析和文档解决方案。N…
-
音视频面试题集锦第 32 期 | 面试官针对编解码方向的问题
分享来自音视频技术社群关键帧的音视频开发圈的音视频面试题集锦第 32 期内容。 本期给大家挑选了一些我们的音视频技术面试官在面试中往编解码方向深入考察的问题,其中每题都给出了考察重…
-
webrtc开发实战系列2 – windows下编译WebRTC支持H264
在本系列上一篇文章《webrtc音视频开发实战系列 – windows下编译WebRTC》中,我们详细介绍了如何在windows平台上下载webrtc源码和安装相关的编…
-
腾讯TVQA斩获ECCV 2024压缩视频质量评估比赛冠军
近日,ECCV 2024 AIM Workshop大赛结果公布,在压缩视频质量评估赛道上,腾讯TVQA-C视频质量评估算法获得比赛冠军。未来,相关能力将在腾讯云媒体处理(MPS)产…
-
Salesforce AI Research 推出 BLIP-3-Video:用于视频的多模态语言模型,旨在有效捕捉多帧的时间信息
视觉语言模型(VLM)因其整合视觉和文本数据的能力而在人工智能领域日益突出。这些模型在视频理解、人机交互和多媒体应用等领域发挥着至关重要的作用,提供了根据视频输入回答问题、生成字幕…
-
Meta AI 发布 Llama 3.2(1B 和 3B)的新量化版本:推理速度提高 2-4 倍,模型大小缩小 56%
大型语言模型 (LLM) 的快速发展为各个领域带来了重大进步,但也带来了巨大的挑战。Llama 3 等模型在自然语言理解和生成方面取得了令人瞩目的进步,但它们的大小和计算要求往往限…
-
使用 MCU 和 SFU 构建 WebRTC 和 SIP 集成
会话初始协议(SIP)和 WebRTC 都是实时通信领域的重要技术,特别是在 IP 语音和视频领域。虽然它们的作用互补,但运行方式不同,功能也各异。 在本篇文章中,我们将探讨如何使…