图像处理
-
使用图像数据进行特征工程
通过特征工程,我们立即想到的是表格数据。然而,我们也可以为图像数据获取特征。目标是提取图像的最重要方面。这样做将使我们更容易找到数据和目标变量之间的映射。 这意味着你可以使用更少的…
-
摄像机颜色识别的相关方法
我们每天能看到多种色彩,对于传感器来说(不管是CCD还是CMOS),它们只能看到光强。当然,他们能识别从近紫外到红外之间大部分光的光强。为了让图像传感器更好的输出能让人类接受的图片…
-
基于深度学习框架的DOA估计方法 | 黄岩, 张彦君, 陶俊等
研究意义 在雷达感知任务中,信号到达方向(DOA)估计是非常重要的,涉及到实现诸如目标检测、跟踪和成像等各类应用。尤其对于汽车毫米波雷达,多数情况下需要在高速行驶的状态下实现远距离…
-
以结构和内容为依据基于扩散模型生成视频
文本引导的生成扩散模型解锁了强大的图像创建和编辑工具。虽然这些已经扩展到视频生成,但当前编辑现有素材内容同时保留结构的方法需要对每个输入进行昂贵的重新训练,或者依赖于跨帧图像编辑的…
-
如何处理计算机视觉和深度学习中的图像数据
在过去几年从事多个计算机视觉和深度学习项目之后,我在这个博客中收集了关于如何处理图像数据的想法。对数据进行预处理基本上要比直接将其输入深度学习模型更好。有时,甚至可能不需要深度学习…
-
Mediapipe Tasks API 及其在项目中的实现
深度学习使机器能够从大量数据中学习和改进,从而彻底改变了人工智能领域。Mediapipe 是一个用于构建多模式 ML 管道的跨平台开源框架,它引入了一个新的任务 API,可以比以往…
-
用于通用图像分割的 Masked-attention Mask Transformer | CVPR2022
图像分割将不同语义的像素归入不同的分组中,例如分类和实例分割。每种语义的选择被定义成不同的任务,目前的研究为每种不同任务设计了不同的架构。本文提出了全新框架Masked-atten…
-
RGB-D多模态数据的多视角图像三维混合特征学习 | 杨镑镑,章国锋,鲍虎军等
研究意义 利用RGB相机和深度传感器等设备对真实三维场景进行数字化重建,是AR/VR、元宇宙、机器人等诸多应用领域的一项关键技术。为了保障重建质量,算法往往需要精准估计场景的三维注…
-
使用 TensorFlow 进行图像分割的深度学习
图像分割是计算机视觉中的一项任务,涉及将特定图像划分为多个片段,其中每个片段代表图像中的对象或区域。这项任务对于对象检测、图像识别和自动驾驶等应用非常重要。 TensorFlow …
-
InstructPix2Pix: 根据指令进行图像编辑
本文提出了一种根据人类指令编辑图像的方法:给定一个输入图像和一个告诉模型该做什么的语言指令,使模型按照这些指令来编辑图像。为了获得训练数据,本文结合了两个大型预训练模型的知识…
-
图神经网络(GNN)在 AI 推理中的潜力
图神经网络 (GNN) 可用于人工智能 (AI) 中的推理,尤其是在涉及结构化数据的领域,例如社交网络、推荐系统和化合物。 GNN 是一种神经网络,旨在对图形数据结构进行操作。图神…
-
入门:使用 OpenCV 进行图像处理
图像处理是计算机视觉的一个分支,它使用各种算法来处理和分析数字图像。它涉及使用数学或统计操作来为许多应用修改图像,包括但不限于医学和卫星图像以及数字摄影。本文探讨了图像处理的基础知…
-
基于结构一致性能量模型的异源光学和SAR图像变化检测
研究意义 异源遥感图像变化检测可以使用不同传感器获取的前后时刻遥感图像检测变化,能够突破传统同源变化检测方法对于图像来自同一传感器的限制,在突发事件(如地震、洪灾等重大自然灾害)的…
-
什么是图像噪声?图像去噪技术有哪些
本文为大家分享什么是图像噪声?图像噪声是怎么产生的?以及简要介绍一下图像去噪技术,如传统图像去噪技术、基于深度学习的图像去噪技术等知识。 什么是图像噪声? 在一些图像中,像素值会在…
-
图计算标准化进展和展望
上期我们介绍了《图计算技术与标准化进展》中的“图计算概述”和“图计算相关技术”,本期为大家继续介绍“图计算标准化进展”和“图计算标准化展望”。 作者简介: 郭智慧,蚂蚁集团标准化专…
-
RGB图像的相对位姿估计 | CVPR 2021
本文提出了一种在极端情况下估计 RGB 图像对相对三维旋转的方法,即使图像没有或几乎没有重叠部分。通过观察图像中的隐含线索,如光源方向、消失点和场景对称性,作者设计了一种网络,通过…
-
图计算技术与标准化进展
近年来,随着互联网及移动互联网的发展,大量的数据从社交网络、在线服务、物联网应用等中产生出来。同时,随着传统行业向数字化转型,更多的数据也主动或者被动地被生产出来。传统上,数据在数…
-
Transformer神经网络架构详解
Transformer是一种新型的深度前馈人工神经网络架构。在本文中,通过底层数学、python代码实现和不同层的可视化来解释了Transformer架构。
-
NED:自然视频中保持语音的人脸表情语义控制 | CVPR 2022
这篇文章提出了一种用于在自然视频中对人物的情绪状态进行真实感操纵的深度学习方法。该方法基于输入场景中人物的 3D 人脸参数表示,从头部姿态和面部表情中解耦了人脸身份,然后使用一个新…
-
如何处理计算机视觉和深度学习中的图像数据
在过去几年从事多个计算机视觉和深度学习项目之后,我在这个博客中收集了关于如何处理图像数据的想法。对数据进行预处理基本上要比直接将其输入深度学习模型更好。有时,甚至可能不需要深度学习…