图像处理
-
RGB 与 BGR 颜色深度、像素和字节之间的关系
在处理图像时,了解 RGB 和 BGR 色彩空间之间的区别非常重要。RGB 和 BGR 都具有三个颜色通道:红色、绿色和蓝色。但是,这些通道在图像文件中的存储顺序可能不同。 图像数…
-
戴琼海院士团队 | 面向大规模数据的高效超图神经网络
研究意义 高阶关联广泛存在于现实世界中,如社交网络、生物网络、交通网络等,建模及优化高阶关联对于网络属性研究和演化趋势预测具有重要意义。超图是一种灵活的数据结构,能够自然地建模高阶…
-
Pix2Video: 基于扩散模型的视频编辑 | ICCV 2023
本文研究如何使用预训练的图像扩散模型进行文本引导的视频编辑。提出了一种免训练的方法,并且可以推广到广泛的编辑中。并且通过大量实验证明了该方法的有效性,并将其与四种不同的先前和并行工…
-
DECO:野外环境场景下的 3D 人体-场景的接触估计【ICCV2023】
本文介绍了研究人类如何使用身体接触与世界互动,以实现以人为中心的人工智能的重要性。文中提到,为了建模逼真和物理可行的人与物体互动,推断3D接触至关重要。然而,现有的方法要么专注于2…
-
COMPASS:任意尺度空间可伸缩性的深度图像压缩 | ICCV 2023
近年来,基于神经网络的图像压缩得到了积极的发展,与传统方法相比,其表现出了令人印象深刻的性能。然而,大多数工作都集中在不可扩展的图像压缩上,而空间可扩展图像压缩虽然有很多应用,但却…
-
RobustNeRF: 从单张图像生成3D形状 | CVPR2023
简介:神经辐射场(NeRF)学习时数据包含不在图像拍摄期间持续存在的干扰物(如移动物体、光照变化、阴影)时,会出现伪影。为了处理这些干扰物,本工作提出一种用于NeRF训练的鲁棒性估…
-
使用条件生成器进行多重真实感图像压缩 | CVPR2023
本文提出一种将图像压缩的解码器与条件生成对抗网络结合的模型。MSE 不再是评价解码图像的唯一标准,通过调节因子 ,可以获得高感知质量的解码图像。这可以使得在低码率条件下解码的图片能…
-
通过示例绘制:基于示例的图像编辑与扩散模型 | CVPR2023
近年来,语言引导的图像编辑取得了很大的成功。在本文中,作者探索了模板引导的图像编辑,以实现更精确的控制。本文通过利用自监督训练来解开和重新组织源图像和模板来实现这一目标。然而,简单…
-
SEED:在大语言模型中播下一颗视觉的”种子”
本文作者提出了一个精心设计的图像Tokenizer:SEED。它能为大语言模型赋予同时理解和绘制的能力。由于使用量化视觉Tokens的框架在多模态理解和生成方面的表现欠佳,此前关于…
-
X-HRNet:基于空间线性 self-attention 机制的轻量级人体姿态估计网络
2D 人体姿势估计旨在从整个图像空间中定位所有人体关节。但是想要实现高性能的人姿态估计,高分辨率是必不可少的重要前提,随之带来的是计算复杂度的提升,导致很难将其部署在广泛使用的移动…
-
CoDi: 利用可组合扩散实现任意组合模态的处理与生成 | NeurIPS 2023
本文作者提出了可组合扩散模型(CoDi)。这是一种新的生成模型,能够处理任意组合模态输入,如语言、图像、视频和音频,进而生成任意组合模态输出。不同于先前已有的生成式AI系统,CoD…
-
非监督跨模态图像分割中的双网络输出可信度加权互监督学习 | 陈雅婕,杨欣,白翔
研究意义 得益于大量的标注数据,监督学习在图像语义分割任务中取得了重要进展。然而,在图像语义分割,特别是医学影像语义分割等任务中,语义标注严重依赖标注人员的专业知识,非常耗时耗力。…
-
稳健有效的边缘检测的突破性方法
边缘检测是通过识别颜色或强度变化的区域来描绘场景中物体轮廓的过程,这些变化信号表明物体之间的边界。它在计算机视觉应用中非常重要,如物体识别、图像分割和特征提取。传统上,其准确性取决…
-
文本到图像生成的对齐 | CVPR2023 Tutorial Talk
本视频围绕文本到图像生成对齐,讨论了以下四个方面的工作:可控制的生成和编辑、更好地遵循文本提示和概念定制。 来源:CVPR 2023 Tutorial Talk主讲人:Zhengy…
-
DreamSparse: 利用扩散模型的稀疏图的新视角合成
本文提出了 DreamSparse ,这是一个框架,使冻结的预训练扩散模型能够生成几何和身份一致的新视图图像。具体而言,DreamSparse包含了一个几何模块,旨在从稀疏视图中捕…
-
用于实时辐射场渲染的 3D Gaussian Splatting | SIGGRAPH 2023
网格和点是最常见的可以用于基于 GPU/CUDA 快速光栅化的显式三维场景表征方式。而神经辐射场基于 MLP 使用体渲染对捕捉的场景化进行自由视角合成。而提升辐射场效率的方案目前多…
-
Attend-and-Excite:基于注意力的文生图扩散模型语义指导 | SIGGRAPH 2023
最近文生图模型达到了一种前所未有的图片生成创造力。但是现在的SOTA扩散模型对文字描述的还原仍然不完美。经过对公开的稳定扩散模型的分析,认为它有严重的物体忽视问题。此外,发现模型还…
-
超分辨率的任意放大倍率网络 | CVPR 2019
单图超分辨率(SISR)旨在从降质的低分辨率(LR)图像中重建出视觉自然的高分辨率图像。它在安全监控图像、医学影像以及卫星和航拍图像等领域具有广泛应用。在实际场景中,SISR 经常…
-
sRGB就是BT.709吗?
sRGB就是BT.709吗?是的。 下图是维基百科上给出的常用颜色空间的CIE1931色域马蹄图,可以看到Rec709和sRGB色域是重合的。 BT.709也叫Rec.709,是I…
-
MVDream:利用扩散模型实现多视角的3D生成
本文提出了MVDream,能够根据给定的文本提示生成几何上一致的多视图图像。通过利用在大规模网络数据集上预训练的图像扩散模型以及从3D资源渲染的多视图数据集,得到的多视图扩散模型既…