技术文章
-
基于图像分割及修复的数据生成
随着硬件及技术的发展,深度学习技术得到广泛的研究及应用,而数据作为驱动深度学习发展的重要输入,变得越来越重要。但是针对一些特殊场景,存在数据少、隐私风险等问题。针对上述问题,结合任…
-
构建混合 WebRTC 体验: 将在线互动和人机互动的优点结合起来
WebRTC 是一种赋予现代网络应用程序实时通信能力的技术。它有助于视频、音频和数据的加密、无缝通信。其用途包括视频会议、工作场所协作工具、广播等。 远程通信的威力在于它能够促进地…
-
物联网通信技术之LORA简介
物联网有很多种方式将各种物联网传感器数据进行回传,以及对一些联网设备进行控制。我们在日常项目中应用的比较多的有通过网线传输,通过WIFI传输,也有通过4G/5G进行物联网数据传输与…
-
医学图像的诊断无损压缩 | ICML 2023
医学图像(例如 X 射线)通常以高分辨率和大尺寸采集,以便捕捉更清晰的细节。本文工作实现了医学图像的压缩,同时保留了诊断所需的细粒度特征,这种特性被称为诊断无损。为此,使用超过一百…
-
腾讯云V265/TXAV1直播场景下的编码优化和应用
编者按:随着视频直播不断向着超高清、低延时、高码率的方向发展, Apple Vision的出现又进一步拓展了对3D, 8K 120FPS的视频编码需求,视频的编码优化也变得越来越具…
-
FFmpeg6.0调用MediaCodec解码
在前面的博文中我们介绍了关于使用NDK编译FFMpeg6.0的一些坑以及相关的解决方法。 详情请参考:NDK编译ffmpeg6.0与x264的坑 在写《NDK编译ffmpeg6.0…
-
近实时智能应答 2D 数字人搭建
早在大语言模型如 GPT-3.5 等的兴起和被日渐广泛地采用之前,教育行业已经在 AI 辅助教学领域有过各种各样的尝试。在教育行业,人工智能技术的采用帮助教育行业更好地实现教学目标…
-
一个简单的说话人日志系统
最近一段时间做了点和说话人日志(speaker diarization)相关的工作,所以在这里对说话人日志做一个简单的整理。说话人日志也叫说话人分离,是从一个连续的多人说话的语音中…
-
ICE-Pick: 用于DNN的高效迭代剪枝 | ICML 2023
剪枝是深度神经网络 (DNN) 的主要压缩方法之一,从 DNN 模型中删除不太相关的参数以减少其内存占用。为了获得更好的最终精度,通常迭代地执行剪枝,在每一步中删除越来越多的参数,…
-
基于神经网络的生成式三维数字人研究综述:表示、渲染与学习 | 晏轶超,翟广涛,杨小康等
研究意义 虚拟数字人即运用数字技术创造的、拥有数字化表现形式的虚拟人物,大规模生产高质量虚拟数字人化身,既是人类进入“元宇宙”等虚拟世界的基础,也是人类进一步探索更广阔的数字空间的…
-
Linux V4L2子系统-Video设备框架分析
在V4L2子系统中,Video设备是一个字符设备,设备节点为/dev/videoX,主设备号为81,次设备号范围为0-63。在用户空间,应用可以通过open/close/ioctl…
-
使用 zoom 预览出图和系统相机出图预览,画质不一样的问题分析
1、问题背景 最近在基于 Android 的平台调试一款摄像头,客户有反馈一个问题,系统自带的 Camera2 app 预览出图是正常的,但用 Zoom app 打开摄像头,出图画…
-
使用 WebRTC 构建多人 Gameboy 游戏系列1(后端部分)
很长时间以来,我一直想了解点对点浏览器网络和 WebRTC,但一直在寻找合适的项目。最近,我在重看 Twitch Plays Pokemon 的一些旧视频时突然有了灵感,心想如果能…
-
面向大规模有环网络系统的分布式动态状态估计精度分析 | 朱名炎,汪锐,缪小冬,隋天举
研究意义 随着传感器网络和无线通信技术的快速发展,系统规模持续扩大。 集中式状态估计依赖中心节点处理系统的全部信息,其计算和通信负担随着系统规模增长而急剧增加,不适用于大规模系统。…
-
Meta专利AR/VR音频内放、外放播放生成空间音频和消除串扰的方法
对于XR,音频是关于沉浸感的一个关键因素。所以,厂商都在积极探索提供最佳的空间音频效果。在名为“Generating spatial audio and cross-talk ca…
-
通往人工智能的感知运动之路
在提到人工智能时,我们会很容易的联想到AlphaGo、ChatGPT4等模型。人工智能在智力测试或下棋时表现出了达到甚至超过成年人的水平。然而在感知和行动方面,让它们具备一岁孩子的…
-
onvif 中 imaging setting 图像画质总结!
前言: 大家好,今天给大家来分享一篇关于图像质量的内容,这个内容是我在做onvif中的imaging setting的时候,关注到里面有关于: brightness(亮度) col…
-
画质提升+带宽优化,小红书音视频团队端云结合超分落地实践
随着视频业务和短视频播放规模不断增长,小红书一直致力于研究:如何在保证提升用户体验质量的同时降低视频带宽成本? 在近日结束的音视频技术大会「LiveVideoStackCon 20…
-
YOLOv4:使用 Darknet 和 OpenCV 进行对象检测的综合指南
对象检测是计算机视觉中的一项基本任务,涉及识别和定位图像或视频中的对象。多年来,已经开发了多种对象检测算法,每种算法都有自己的优点和局限性。YOLOv4(You Only Look…
-
直播中的难点和痛点都有哪些?直播痛点关键技术解析
国内直播行业已呈现一片红海,各直播产品的用户增长速度在逐渐放缓,行业内竞争进入白热化阶段,急需通过在直播体验上的精细化运营来保障平台营收。如针对重大活动、头部主播进行直播体验优化保…