多智能体RL实现多轮连续交互，IteR-MRL使图像分割算法达到医用标准

如何提高交互式图像分割算法的效率？上海交大和华师大的研究者提出了一种基于多智能体深度强化学习的新型算法。

现有的交互式图像分割算法虽然能迭代式地更新分割结果，但很大程度上忽略了对连续交互之间动态性的探索，造成分割效率大大降低。

在 CVPR 2020 的一篇论文中，来自上海交大和华师大的团队联合提出了一种基于多智能体深度强化学习（MARL）的新型交互式三维医疗图像分割算法（IteR-MRL）。通过将迭代更新的交互式图像分割的动态过程建模成马尔可夫过程，并使用 MARL 解决，IteR-MRL 实现了更少的交互次数和更快的收敛速度，在多个医疗图像数据集上超过了现有算法。

论文地址：https://arxiv.org/abs/1911.10334

现有交互式图像分割策略的缺点

目前的三维图像自动分割算法很难达到医用标准。为了得到更佳的分割结果，交互式的图像分割策略成为有价值的研究方向，此类策略通过引入少量的用户提示实现对分割结果的迭代优化。

现有的交互式算法虽然能迭代式地对分割结果进行多轮更新，但它们仍然独立地考虑每一轮更新的分割结果，很大程度上忽略了连续交互的动态性。

该研究的贡献

为了更好地利用交互式图像分割的动态性，来自上海交大和华师大的团队提出了一个基于深度强化学习的算法 IteR-MRL，将交互式医疗图像分割的动态过程建模成一个马尔科夫决策过程，然后用深度强化学习求解。该算法从整体上考虑分割更新序列，充分挖掘了交互分割前后的关联。

由于体素级的图像分割标注任务会造成单智能体的强化学习算法遭遇探索空间爆炸问题，因此该团队采用多智能体模型，将每个图像体素看作一个智能体。通过让所有智能体共享同一个行为策略，将探索空间减小到了可行的范围。多智能体模型还能同时实现图像体素的合作交互，从而有效地捕捉分割任务中体素之间的依赖性。

该研究的贡献主要有以下三点：

（1）将交互式图像分割任务建模成一个马尔科夫决策过程，提出了全新的基于 MARL 的交互式三维医疗图像分割框架，使得用户的交互得到更有效地利用；

（2）通过分割概率的形式来保留分割结果的不确定性，丰富了之前分割结果的信息，也实现了更加精确和精细的分割调整；

（3）实验表明，通过考虑连续两次分割结果之间的相对增益，分割效果得到显著提升，并具备更少的交互次数和更快的收敛速度。

方法概览

该研究采用迭代更新的流程。首先向模型提供初始的粗分割结果（可以来自任意图像分割算法或不精确的人工标注）。如果当前分割结果不符合预期，则用户在错误区域标注关键性的提示信息，更新算法根据用户提示再次更新分割结果。上述过程不断迭代，直至用户对优化后的分割结果满意为止。

基于 MARL 的交互式图像分割框架（IteR-MRL）

在每一步交互更新中，将包含图像、之前分割结果和提示图的当前状态输入到 FCN 网络中，然后网络根据其输出的动作产生当前的分割结果。接着，用户根据错误区域给出的提示点（红点），进而生成新的提示图。每一步的回报值都由环境决定，即分割的预测标签和正确标签。在 MARL 的设定中，体素被看作是互相协作的智能体。

1. 状态设计