如何找到并计数一幅图像中出现次数最多的物体

图像处理 • 来源：中国科学信息科学 • 2023年2月26日下午4:45 • 技术文章

研究意义

单幅图像内共显著性检测旨在突出显示单幅图像中具有相似外观的同一类物体。对于人类视觉而言，这是一种常见的视觉能力，在我们的日常生活中经常使用。例如，在运动场上识别同一队的球员，在自然场景中识别树上的红苹果、农田中的向日葵，又或是在工业应用中对同一类物体的归类计数等。然而，对于计算机视觉而言，在各种复杂场景中准确找到包含重复出现的显著物体并将其精准分割仍然是一个挑战。到目前为止，只有少数研究直接考虑了这个问题。

本文工作

为了解决上述问题，本文设计了一种统一的端到端图像内共显性检测框架，如图2。该框架着重发挥端到端优化的潜力，结合了自上而下和自下而上的策略：主干网络使用图像掩模作为指导用于共显图预测，两个分支网络构建三元组共显关系候选并对选定区域映射与聚类，促使网络以自下而上的方式对共同显著区域更敏感。

图2 本文提出方法整体结构图

本文的创新点如下：

(1) 提出了一种可端到端训练的网络用于单张图像中的共同显著性检测。

(2) 提出了一种在线区域选择策略，相比随机缩放和偏移的离线区域选择策略有着更高的精度。

(3) 构建了一个用于图像内显著性检测的新数据集，包含 300 多种常见类别的 2019 张自然图像，带有实例级注释。

相关代码和数据集已开源：https://github.com/qinnzou/co-saliency-detection

实验结果

本文所提出的框架在两个基准数据集 (SDCS, WhuCoS) 上进行了验证，在精度指标上均达到领先的水平。比较结果如表2所示，红，蓝，绿字体对应Top3的结果。

定性结果如图3所示，我们选取共显著性特征敏感层并对其进行可视化处理。可以看出，该层结果类似于注意力机制，强调外观相似的目标区域，抑制外观不同的目标区域。然而，基线模型的特征对不同的外观显著性对象具有相似的响应。这表明所提模型可以学习到对相似外观对象区域的响应，从而验证了我们的方法有效性。

值得注意的是，本文定义的共显著性是指同类别目标出现次数最高的目标区域，图4显示了这一特性。

文章信息

Yuanhao YUE, Qin ZOU, Hongkai YU, Qian WANG, Zhongyuan WANG, Song WANG. An end-to-end network for co-saliency detection in one single image. Sci China Inf Sci, doi: 10.1007/s11432-022-3686-1