面向人机序贯决策实现共享控制下的仲裁优化

研究意义

人类独特的认知能力使其经常密切参与到各种各样的智能机器决策场景中，如人机搜救系统、辅助微创手术系统、开放环境下人机共驾系统等，其中人类扮演决策者或辅助决策者的角色。以时序性和多阶段性为标志的序贯决策问题是一类广泛存在于社会、经济、军事、工业生产等各个领域的重要决策问题。考虑通过有效融合人类智能和机器智能来完成或改善序贯决策的过程，即本文所研究的人机序贯决策问题。仲裁是人机混合决策之间的一种平衡机制，是面向序贯决策实现有效人机协调的一种主要方法，其中平衡通常以人机决策的线性组合形式实现，涉及到仲裁权重因子的求解。仲裁因子可以通过多种方式确定，它取决于多个决策主体之间的决策差异，或者决策可信度、人类意图预测可信度等。在大多数现有研究中，α的下限阈值和上限阈值是根据人工经验被假设为恒定的。然而，实际上仲裁因子阈值与动态变化的环境和决策中的不确定性密切相关，这意味着阈值的固定假设对于确定α来说过于保守。因此，仲裁设计对于人机混合智能系统变得尤为重要。

本文工作

本文利用自主性边界的概念设计仲裁因子α。将自主性边界定义为人类智能和机器智能按照有利于共享控制联合优化目标的方向做出决策和行动的范围。显然，我们所定义的自主性边界能够与人和机器的决策能力挂钩，因此可以将其作为确定上述仲裁阈值的关键因素。

利用自主性边界信息的关键挑战是它的量化计算，这是以前从未见过的，且其本质上是困难的。为了解决这个困难，本文不直接计算自主性边界，而是通过描述一个优化问题，以量化人和机器的动作对其联合性能指标的影响。

此外，针对自主性边界可能存在单值估计不准确的情况，本文进一步对其不确定性进行估计，进而用于共享控制中的仲裁优化。

本文的主要贡献可总结为三点：

(1) 面向人机序贯决策提出了共享控制下的仲裁优化方案，通过自适应调节仲裁因子改善决策性能。

(2) 提供了一种自主性边界信息的判定和维护方式，使得人机共享控制系统中的决策权限有了初步界定。

(3) 基于贝叶斯神经网络对自主性边界进行不确定性估计，并将获得的不确定性信息用于决策动作生成。

实验结果

利用仿真实验验证了所提出的基于自主性边界的人机共享控制算法 (SCHMA) 和基于自主性边界不确定性的共享控制优化算法 (SCHMAU) 对共享控制处理人机序贯决策的性能。选择LunarLander环境是考虑到着陆器轨迹优化 (奖赏越大轨迹越优) 在最优控制、智能决策均是经典的主题，且LunarLander中的决策问题具有一定的代表性。

如果是辅助驾驶场景，环境状态s(t)包括：车在马路上的位置坐标、速度、周围车辆的距离和相对速度等，决策动作α(t)对应为方向盘的角度、刹车力度、油门大小等，以及优化目标J(t)对应起始点之间路径规划的奖赏累积。如果是脑控无人机场景，环境状态为飞行器的空间坐标、速度信息等，决策动作为AI智能和脑电信号构成的上下左右指令等。上述场景均和本文验证的LunarLander环境具有一致性，因此现有仿真验证能够说明本文所提方法的有效性。

图5显示出本文提出的仲裁优化方法SCHMA优于SCHM，具体体现在：奖赏走势、着陆成功率和撞击率。其中仲裁参数α决定了人类决策和机器决策的混合程度，本文所提的优化方法首先随机初始化仲裁参数，随后在动态演化过程中根据实时环境和自主性边界自适应调整α。

针对基于自主性边界不确定性的共享控制优化设计，实验结果如图7-9所示。与算法SCHM和SCHMA相比，算法SCHMAU可以获得更高的奖励值、着陆成功率，以及更低的撞击率。

与SCHMAU不同的是，在图9(c)中自主性上界概率分布 (橙色) 走势中，横坐标上每个时间步对应的纵坐标包括两个值：均值和方差，即¯b(t)~N(μ¯b,σ¯b)，类似地，自主性下界服从▁b(t)~N(μ▁b,σ▁b) 的概率分布。两者都有助于人机共享控制算法SCHM的优化过程，概率分布的不确定性可以提供更全面的信息，这些从图7和图8中可以看出。