如何处理计算机视觉和深度学习中的图像数据

在过去几年从事多个计算机视觉和深度学习项目之后，我在这个博客中收集了关于如何处理图像数据的想法。对数据进行预处理基本上要比直接将其输入深度学习模型更好。有时，甚至可能不需要深度学习模型，经过一些处理后一个简单的分类器可能就足够了。

最大化信号并最小化图像中的噪声使得手头的问题更容易处理。在构建计算机视觉系统时，应考虑使用滤波器来增强特征并使图像对光照、颜色变化等更加稳健。

考虑到这一点，让我们探索一些可以帮助解决经典计算机视觉或基于图像的深度学习问题的方法。相关的代码仓库：https://github.com/bikramb98/image_processing。

先简单再深入

在应用最新和最好的深度学习解决问题之前，请尝试经典的计算机视觉技术。特别是在数据可能稀缺的情况下，就像许多现实世界的问题一样。

检查计算图像像素的统计值（例如均值、峰度、标准差）是否会导致不同类别的统计值不同。然后可以在这些值上训练一个简单的分类器，例如 SVM、KNN，以在不同的类之间进行分类。

增加图像信噪比

在将它们输入深度学习模型之前，检查预处理技术是否增强了图像的主要特征并提高了信噪比。这将有助于模型获得更好的准确性。

使用阈值处理等技术、腐蚀和膨胀等噪声消除技术、高斯模糊（平滑边缘）和中值模糊（消除椒盐噪声）等模糊技术。
对于不同的问题，不同的运算可能在不同的顺序下有用。
通常的做法是多次使用特定运算符，如果可以增强特征，那就在几个步骤之后再次应用。

找到滤波器、阈值等不同kernel大小的最佳组合（其组合可能达到数百万！），可以产生产生最佳效果的图像，可以通过构建交互式滑块来帮助找到这些值的理想范围。

直方图均衡

增强图像特征的另一种方法是使用直方图均衡化。直方图均衡化提高了图像的对比度。直方图均衡化的目的是使出现频率最高的像素值均匀分布。

让我们看看下面的例子。

可以看出，上图的对比度非常低。在这种情况下，重要的是要提高对比度，使图像的特征更清晰可见。OpenCV 提供了两种这样做的技术 —— 直方图均衡化和对比度受限自适应直方图均衡化 (CLAHE)。

应用直方图均衡化，图像的对比度确实有所提高。但是，它也会增加图像中的噪点，如下图中间所示。

这就是CLAHE 的用武之地。使用这种方法，图像被分成 m x n 网格，然后将直方图均衡应用于每个网格。可以使用交互式滑块找到理想的对比度阈值和网格大小，如下所示。

用于查找最佳阈值和图块大小值的交互式滑块

从左到右：原始图像、直方图均衡图像、CLAHE 后图像

图像的颜色空间变换:

将图像转换到不同的颜色空间，例如 HSV，通常可以提供更好的信息来分割目标，用于目标跟踪等情况。通常，RGB 颜色空间对阴影、光照的轻微变化（影响目标的颜色）不稳健。对于使用经典计算机视觉进行目标跟踪等任务，由于上述原因，在稍有不同的环境中使用时，RGB 空间中经过调试的mask通常会失败。此外，一旦将图像转换为不同的空间（例如 HSV），分离通道通常有助于分割感兴趣的区域并消除噪声。如下图所示，一旦将图像转换为 HSV 空间并拆分通道，就可以更轻松地去除阴影并分割网球。