图像处理
-
KITE:一种用于语义操作的人工智能框架,使用关键点作为视觉基础和精确动作推理的表示
随着人工智能领域的不断进步,人工智能技术开始与机器人技术相结合。从计算机视觉和自然语言处理到边缘计算,人工智能正在与机器人技术相集成,以开发有意义且有效的解决方案。人工智能机器人是…
-
使用基于 CNN 的定位器进行对象定位
对象定位是指精确识别和定位图像中感兴趣的对象的任务。它在计算机视觉应用中发挥着至关重要的作用,可实现对象检测、跟踪和分割等任务。在基于 CNN 的定位器中,对象定位涉及训练卷积神经…
-
在OpenCV中进行图像预处理
今天,我们进一步深入,并处理在图像处理中常用的形态学操作。形态学操作用于提取区域、边缘、形状等。 什么是形态学操作? 形态学操作是在二值图像上进行的。二值图像可能包含许多不完美之处…
-
相机APP 如何选择合适的分辨率?
影响相机画面效果的因素有很多,分辨率就是其中一个因素,1080p和720p的效果对比,画面清晰度等差别还是挺大的。 这篇文章主要分下面几点展开: 做camera效果tuning调试…
-
图像压缩对视觉识别的鲁棒性分析
目前,能够分析视觉数据而不仅仅是存储数据的最先进的识别模型无一例外地基于深度学习。尽管在降低推理成本方面做出了巨大的努力,但它们对内存和计算的要求很高。而图像压缩对于促进在设备上存…
-
高通 18-bit RAW 格式图像
在复杂条件下,如何拍出好照片?凭借全新的Snapdragon Sight骁龙影像技术,多款骁龙移动平台支持拍摄18-bit RAW格式图像,该格式可以保留图像的原始质量和信息,并支…
-
基于图像数据生成网格的方法
你有没有想过利用三维成像技术获得的数据生成仿真网格?这篇文章,我们将解释如何使用 COMSOL Multiphysics® 软件来实现这一目标。这个主题是对我们在以前的文章中讨论过…
-
Opencv是干什么的?让你在几秒钟内掌握图像和视频处理
使用 Opencv,你不需要成为操作和处理图像的专家。图像处理是一个强大的工具;它有助于操纵、增强和提取图像中的细节。该技术用于从娱乐和游戏到取证的多个领域。例如,它可以用于识别嫌…
-
PyTorch 2简介:卷积神经网络
介绍 在本系列的上一部分中,我们使用了CIFAR-10数据集,并介绍了PyTorch的基础知识: 张量及其相关操作 数据集和数据加载器 构建基本的神经网络 基本模型的训练和评估 我…
-
掩码图像建模MIM的理解、局限与扩展 | CVPR 2023
编者按:掩码图像建模(Masked Image Modeling, MIM)的提出,为计算机视觉模型训练引入无监督学习做出了重要贡献。 得益于 MIM 的预训练算法,计算机视觉领域…
-
视觉说明:通过实时视觉画面增强语言交流
在日常生活的对话中,人们会提及他人不熟悉的主题内容。在Zoom等在线会议中,即时的字幕可以帮助人们理解他人所说的话语。在这些场景下,该工作提出使用视觉图像进行辅助传达信息。具体来说…
-
浅谈基于NeRF的三维重建技术
当今,三维重建技术在计算机视觉和计算机图形学领域扮演着越来越重要的角色,它们有助于将物理世界中的实体转换为数字模型。三维重建技术的应用范围非常广泛,包括增强现实、虚拟现实、建筑设计…
-
Total-Recon:面向体视图合成的可变形场景重建
Total-Recon 是第一种从单目 RGBD 视频中逼真地重建可变形场景的方法。为了扩展到长视频,该方法将场景运动分层分解为每个对象的运动,而每个对象的运动本身又被分解为全身整…
-
PeekingDuck:计算机视觉框架
计算机视觉项目可能会非常令人望而生畏,涉及到各种工具和包,如OpenCV、TensorFlow和PyTorch等等。不仅需要熟悉所涉及的工具和API,还需要正确组合各个包,以使整个…
-
Align your Latents:高分辨率视频合成与潜在扩散模型 | CVPR2023
潜在扩散模型 (LDM) 可实现高质量图像合成,同时通过在压缩的低维潜在空间中训练扩散模型来减少计算量。将 LDM 应用于高分辨率视频生成是一项特别耗费资源的任务。本文首先仅在图像…
-
GLIGEN: 开放集基于定位语言的图像生成 | CVPR2023
大规模的文本到图像扩散模型已经取得了惊人的进步。然而,现状是只使用文本输入作为条件,这可能会阻碍可控性。GLIGEN,是一种基于定位语言的图像生成,在现有的预训练文本到图像扩散模型…
-
SmartBrush:基于扩散模型的文本和形状引导目标补全 | CVPR2023
通用的图像补全旨在通过借用周围的信息来填充损坏的图像,这几乎不会产生新颖的内容。相比之下,多模态的图像补全为需要填补的内容提供了更灵活和有用的控制,例如,文本提示可以用来描述具有更…
-
基于特征对齐和高斯表征的视觉有向目标检测 | 杨学,严骏驰
研究意义目标检测作为计算机视觉的基本任务之一,是实例分割、目标跟踪、行人再识别等视觉任务的基础,近二十年得到了广泛的研究和快速的发展。然而通用目标检测常常以水平边界框作为主要的目标…
-
从视频中获取帧图片的方法
数据在网络上是以很小的称为帧(Frame)的单位传输的,帧由几部分组成,不同的部分执行不同的功能。帧通过特定的称为网络驱动程序的软件进行成型,然后通过网卡发送到网线上,通过网线到达…
-
DMTet:一个用于高分辨率三维形状合成的混合表示方法 | NeurIPS 2021
摘要:我们引入了DMTet,一个深度的三维条件生成模型,可以使用简单的用户指导(如粗糙体素)合成高分辨率的三维形状。它通过利用一种新颖的混合三维表示方法,融合了隐式和显式三维表示的…