技术文章
-
音视频学习–Raw格式引起的图像问题
您是否曾经尝试解决一个小问题却发现自己意外地解决了一个更大的问题? 问题背景 最近研发小伙伴在预研新的产品,在系统正常运行起来之后,发现一个奇怪的问题:从图片来看,可能是图像处理过…
-
2D 特征跟踪 – 第 1 部分:检测
交通图像上检测到的关键点 你是否曾经想过手机是如何在视频中跟踪你的脸部随着你移动的呢?或者自动驾驶汽车如何保持对道路上其他车辆的跟踪?所有这些惊人的成就都是通过2D特征跟踪实现的,…
-
利用潜空间屏蔽技术提升机器的神经图像压缩能力 | TCSVT 2022
这篇文章主要介绍了一种基于深度学习网络的图像压缩框架,该框架并不把提升人类视觉质量作为最终目标,而是面向进行计算机视觉任务的机器并进行进行端到端的训练,最终得到了优于标准VVC的图…
-
如何使用 Next.js 、Typescript 和 Socket.io 构建简单的聊天应用程序?
要使用 Next.js、TypeScript 和 Socket.IO 制作一个简单的聊天应用程序,可以按照以下步骤操作: 1. 在终端运行以下命令,创建一个新的 Next.js 项…
-
Flutter直播示例源码及运行指引
本文分享即构Flutter直播示例源码,此示例源码向用户展示了 SDK 中的初始化、登录房间以及基础推拉流等功能。通过顺序阅读快速开始章节中的文档并参考示例代码,相信用户也能快速让…
-
西工大 ASLP 实验室在 WeNet 中开源基于 CPPN 的神经网络热词增强语音识别方案
语境偏置(Contextual biasing)旨在将语境知识集成到语音识别(ASR)系统中,以提高在相关领域词汇(俗称“热词”)上的识别准确率。在许多ASR场景中,待识别语音中可…
-
了解 HTTP 方法、Webhooks、Websockets 以及 HTTP 流实时通信的局限性
在网络开发领域,对网络通信的基本了解非常重要。HTTP 方法、webhooks 和 websockets 都是值得关注的核心概念。在本文中,我们将深入探讨这些概念,并通过实际案例来…
-
如何使用 Rust 和 OpenCV 构建实时网络摄像头流媒体服务器
在当今飞速发展的技术领域,实时多媒体流已成为我们数字体验中不可或缺的一部分。无论是视频会议、实时流媒体还是远程监控,实时捕获和流式传输视频帧的能力都是一项强大的功能。在本文中,我们…
-
如何从H.265视频编码器升级到H.266?
现在H.265软件编码器的压缩性能已经基本卷不动了吧,是否也该考虑考虑从下一代的H.266编码上来拿到更高的压缩收益了呢? 那从已有的H.265视频编码器升级到H.266视频编码器…
-
基于可解释贡献的轻量级稀疏自动编码器 | ICML 2023
随着深度学习模型变得越来越庞大,开发性能退化最小的轻量级模型至关重要。在本文中,作者提出了一种SHAP-SAE(SHapley Additive exPlanations base…
-
关于realm在SIP/SBC/IPPBX扩展性和灵活性和其它相关业务管理的重要性讨论
在IP语音领域或者SIP网络的技术实现中,我们需要根据用户的业务要求配置一定的呼叫流程。这是几乎所有SIP网络应用必须设置的一个主要业务环境。很多时候,对于一般的中小型用户,或者单…
-
大规模流量下的云边端一体化流量调度体系
火山引擎是字节跳动旗下的云服务平台, 将字节跳动快速发展过程中积累的增长方法、技术能力和工具开放给外部企业,提供云基础、视频与内容分发、数智平台VeDI、 人工智能、开发与运维等服…
-
生成式 AI 入门难?速来解锁这份生成式 AI 词汇表(上篇)
近年来,生成式 AI 如雨后春笋般迅速兴起,很多开发者对其中涉及的新兴技术概念还并不熟悉。 然而对于在 AI 和机器学习行业工作的开发者来说,他们一直都处于学习的状态(无论是开发者…
-
用于屏幕内容图像连续超分辨率的隐式 Transformer 网络 | NeurIPS 2021
如今,屏幕内容图像呈现爆炸性增长。然而,针对自然图像设计的图像 SR (Super-Resolution,超分辨率)方法对于 SCIs(screen content images,…
-
rv1126之isp黑电平(BLC)校准!
前言: 大家好,今天我们继续来讲解isp第二期内容,这期内容主要分三个部分: 1、tunning的工作流程 2、利用RKISP2.x_Tuner来创建tunning工程,并连接上r…
-
如何在 Nest.js 中使用 WebSockets 构建实时应用程序
实时应用程序(如聊天应用程序或协作工具)需要一种允许服务器和客户端之间即时交换数据的通信机制。流行的 Node.js 框架 Nest.js 为使用 WebSockets 构建实时应…
-
为 Jitsi 实现自己的 Prosody 插件
Prosody 是一款面向商业消息和聊天提供商的开源 XMPP 通信服务器。有了 Prosody,开发人员就可以利用 Prosody 提供的可扩展性和灵活性,轻松快速地开发附加功能…
-
YouTube 的感知视频质量测量模型——UVQ
用户生成内容(UGC)的视频质量评估是工业界和学术界的一个重要话题。大多数现有方法仅关注感知质量评估的一个方面,例如技术质量或压缩失真。本文创建了一个大规模数据集,以全面地探索 U…
-
音视频质检及画质评估——为QoS & QoE 指标保驾护航
腾讯已有超过21年的音视频技术积累,独家具备 RT-ONE 全球网络。此外,构建了包括实时音视频、云直播、云点播、即时通信、媒体处理等业界最完整的 PaaS 及 aPaaS 产品家…
-
Audition RMS计算原理解析
分贝(deci-Bel, dB)是语音中一个比较常见的概念,经常听别人说声音多少dB,但是有时候会发现,dB一会儿是正的一会儿是负的,让人一头雾水,摸不着头脑,我们在震惊!这个声音…