心理研究揭示人形机器人可以模拟人类视听跨通道社会性注意与冲突加工

  • 刘勋研究组 付迪
  • 创建时间: 2023-05-17
  • 9730

      在当今人工智能领域飞速发展的背景下,人形机器人(humanoid robot)在人类社会中的应用日益广泛。机器人可以协助人类完成一系列重复性的、危险的或高精确度的任务,从而帮助人类解决许多现实生活中的问题。此外,人形机器人还可以作为人类的社交伴侣和生活助手,提供情感支持和社会互动,为人类带来更多便利和舒适。然而,要实现人形机器人与人类的良好互动,机器人需要在复杂的现实环境中处理多种类型和感觉通道的社会性线索。因此,对跨感觉通道输入信息的整合和冲突解决成为机器人是否可以成功应对复杂人-机交互场景的关键能力。

  为了研究这一问题,中国科学院行为科学重点实验室刘勋研究组与德国汉堡大学计算机系Stefan Wermter教授合作将经典的注意线索范式(Posner cueing task)改编为一项更具生态学效度的视听跨通道任务。研究通过采集人类参与认知任务的行为数据,并使用深度网络学习(Deep Neural Networks)建模的方法,成功地训练出一个可以执行类似于人类跨通道社会性注意和冲突解决的机器人。

  在人类实验中,研究者设计了一个由3名虚拟人组成的圆桌会议场景。每个虚拟人都佩戴医学口罩以遮挡除眼睛以外的面部线索。不同于传统的社会性注意研究,本研究使用的视觉线索(visual cue)为动态的眼睛注视线索。中间虚拟人不仅可以动眼,还会在每个试次开始后向左或向右轻微转头与上半身。随后,左侧或者右侧的虚拟人会发声。被试被告知忽略视觉刺激的干扰,准确且快速地判断声音的位置。其中,注视方向和发声位置在空间维度可以一致或不一致。实验结果发现,被试在视听空间位置一致条件下的任务表现显著好于不一致条件,表明本实验中动态的注视线索成功诱发视听跨通道社会性注意。

图1. 实验流程示意图

        在机器人实验中,研究者通过深度学习网络训练iCub机器人在相同实验任务中产生类人的行为反应。首先,研究者构建了一个门控注意力预测模型(Gated Attention for Saliency Prediction, GASP)用于预测视听跨通道显著性。该模型可以检测多个社会线索,为每个线索产生特征图,这些特征图根据加权机制进行优先排序。在加权阶段之后,特征被依次整合,以预测显著性。iCub机器人通过转动眼球完成视听任务中对声音的定位,其注视动作的产生基于GASP模型预测的显著性密度图。实验结果发现,机器人表现出了类人的反应,即在视听空间不一致的条件下,机器人反应错误率显著高于视听空间一致条件。研究者还分析了机器人与人类的“刺激-反应兼容性”效应(stimulus-response compatibility, SRC),发现还是人类的跨通道冲突解决能力更胜一筹。

图2. a) GASP模型;b)iCub机器人做视听跨通道冲突任务

图3. 人类与机器人在不同实验条件下行为反应及对比

        该研究为开发更具有社交智能的机器人提供了基础,有助于日后机器人更好地理解和响应人类的情感、意图和需求,并能够以自然、直观的方式与人类进行互动。研究将对医疗保健、教育和其他需要社交互动的领域产生积极影响,并为未来人工智能的落地应用创造更多可能性。

  该研究受到国家自然科学基金中德国际合作重大项目(NSFC: 62061136001, DFG: TRR 169)和中国博管会派出项目支持。文章已发表于International Journal of Social Robotics

  德国汉堡大学计算机系与中科院心理所联合培养博士后付迪博士为第一作者,付迪博士与刘勋研究员为本文共同通讯作者。

  论文信息:Fu, D.*, Abawi, F., Carneiro, H., Kerzel, M., Chen, Z., Strahl, E., Liu, X.*, Wermter, S. (2023). A trained humanoid robot can perform human-like crossmodal social attention and conflict resolution. International Journal of Social Robotics,1-16. doi: 10.1007/s12369-023-00993-3. https://rdcu.be/c81uf

  实验演示视频链接:https://www.youtube.com/watch?v=bjiYEs1x-7E

  相关论文:

  Fu, D.*, Abawi, F., & Wermter, S. (2023). The Robot in the Room: Influence of Robot Facial Expressions and Gaze on Human-Human-Robot Collaboration. https://arxiv.org/pdf/2303.14285.pdf

  Parisi, G. I., Barros, P., Fu, D., Magg, S., Wu, H., Liu, X., & Wermter, S. (2018). A neurorobotic experiment for crossmodal conflict resolution in complex environments. In 2018 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS) (Madrid: IEEE), 2330-2335.