比较人类产生的语言和 NLP 产生的语言之间的神经活动差异

自然语言处理 (NLP) 是与机器和我们之间交流的核心,NLP 研究领域长期以来一直在寻求产生人类质量的语言,确定用于衡量 NLP 生成的语言质量的信息标准将支持开发更好的 NLP 工具。作者假设心智化网络神经活动可用于区分 NLP 生成的语言和人类生成的语言,即使在人类判断无法主观区分语言来源的情况下也是如此。使用英语的社交聊天机器人 Google Meena 和中文的 Microsoft 小冰 生成 NLP 生成的语言,行为测试表明从聊天机器人聊天中感知到的个性差异大于人类聊天,表明聊天机器人语言使用模式不稳定. 使用具有功能性磁共振成像的身份评级任务,进行神经影像分析,揭示心理化网络中大脑活动的不同模式,包括 DMPFC 和 rTPJ,以响应聊天机器人与无法主观区分的人类聊天。这项研究为衡量 NLP 生成的语言的质量提供了一个很有前途的经验基础。

1.介绍

语言是人类社会交流各个方面的核心,自然语言处理 (NLP) 的研究领域包括用于学习、理解和生成人类语言内容的计算技术。因此,NLP 是我们与机器交流的核心,也让我们了解自己之间的交流。人们在 NLP 研究中进行了广泛的持续努力,以产生人类质量的语言。尽管取得了巨大进步,但在评估 NLP 生成的文本质量的方法方面仍存在重大挑战。

现有的 NLP 研究侧重于开发或提高程序对人类语言进行有意义的解释和响应的能力。然而,非常引人注目的是,很少有已发表的研究将语言质量的评估标准考虑为评估 NLP 生成文本质量的法官。据我们了解,目前的评估是以自我报告作为判断标准。传统上,研究人员依靠自我报告措施来评估一个人的人口统计信息、信仰和感受。然而,自我报告措施是主观的和不敏感的。例如,众所周知,在评估种族歧视、避孕措施使用和性取向等敏感问题时,自我报告措施会受到回忆偏差和社会期望偏差的影响。此外,自我报告措施不敏感,因此不适合评估模棱两可的情况、自动注意偏差和反射性精神病理学症状。因此,新的评判标准可能涉及通常被认为是客观和相对敏感的隐性措施。

心理语言学研究表明,我们在日常生活中使用的语言可以揭示我们社会和心理世界的各个方面,支持语言编码与人格、社会、临床和认知心理学等领域相关的信息,并且认为语言的社会和心理功能主要由读者或听众在低级或隐性水平上处理。因此,内隐感知对于衡量 NLP 生成的语言的质量可能具有很高的信息量。

心理语言学证据表明,一个人的语言使用模式在不同时间和上下文中是稳定的。研究人员分析了大量从期刊摘要、大学写作作业和日记中提取的几天甚至几年的文本样本,并检测到几十个语言维度的良好内部一致性(跨文本类型)。另一项研究对学生的自然对话进行了抽样,并显示了跨语境的语言特征的相对稳定性:在不同的语境(包括家庭与公共场所、工作场所与咖啡店以及直接的个人互动与电话)中评估语言时,没有显着的语言差异效应相互作用。尽管语言使用在个人内部是稳定的,但个人在说话和写作的方式上有所不同。即使消息的内容相同,每个人也会以自己独特的风格表达自己。语言使用模式已被认为是个人身份的标记。值得注意的是,语言使用模式的个体差异已被证明与人格特质的个体差异有关。

相反,NLP 系统的语言使用模式可能不稳定。设计具有一致个性的 NLP 系统——反映在稳定和一致的语言使用模式或语言风格上——据报道是一种与用户建立情感联系的方法,尽管这仍然是一个巨大的挑战。 NLP 生成的语言通常是通过基于检索或基于生成的方法生成的,这两种方法都基于来自不同来源和人的语言材料在非常大的数据集上对语言进行建模。NLP 系统对用户话语的口头反应已经存在于训练数据集中,并由算法选择。因此,NLP 系统的响应来自多个人,这表明 NLP 生成的语言代表多重人格的结果。在过去的十年中,已经提出了可以学习控制语言生成中的风格和使用模式的模型,这几乎肯定提高了 NLP 生成语言的感知质量。然而,NLP 系统尚未达到生成语言使用模式与人类一样稳定的语言的能力。因此,我们假设从 NLP 生成的语言中感知到的人格差异大于从人类生成的语言中感知到的人格差异。

神经活动数据比行为数据对心理认知过程更敏感。因此,我们建议将来自评估 NLP 生成的文本质量的法官的神经活动数据作为语言质量评估标准的隐式索引添加,可以显着提高我们可靠地确定 NLP 生成的文本是否正确的能力,语言成就人的品质。

社交能力被定义为在实现个人目标的同时与他人有效互动的能力,已被概念化为社交互动中的“有效性”。人们根据人格、身体属性和情感特征等方面来感知非人类主体的社会能力。具体到 NLP 系统,从其生成的语言中推断出的社交能力有助于与用户建立情感联系。在谈话过程中,人们可以有目的地自动推断他人的心理状态,即使是使用虚拟代理,这已被证明可以参与心智化网络。

心理化是人类社会认知的一个基本组成部分,它描述了我们通过观察或想象他人的行为、言语、面部表情等来理解他人假定的内心想法和意图的过程。报告的心理化神经基础(即心智化网络)包括颞顶交界处 (TPJ) 和内侧前额叶皮层等区域。理解话语的交际意图需要调用心智化网络以从编码意义发展为说话者意义。有人提出,与人类相比,人们对机器人、计算机和其他人工智能体的态度并不相同。在以前的研究中,与计算机或机器人相比,在与人交互时反复发现心智化网络中更强的激活。因此,我们假设与人类产生的语言相比,NLP 产生的语言会在心智化网络中产生不同的神经活动。

先前的证据表明,一个人的语言使用模式在整个上下文中是稳定的,而 NLP 系统尚未达到生成具有稳定语言使用模式的语言的能力。先前的研究还报告说,与与计算机或机器人交互相比,当人类参与者与人类交互时,可以检测到心智化网络中相对更强的激活,表明NLP生成的语言可能导致心智化网络中的差异神经活动。

在本研究中,我们提出了这样一个假设,即从 NLP 生成的语言中感知到的人格差异大于从人类生成的语言中感知到的人格差异。NLP 生成的语言是从社交聊天机器人 Google Meena(英文)获得的。招募了 20 名参与者,以根据大五量表评估每次聊天的受访者的性格。我们计算了每次聊天的五个人格维度(即开放性、责任心、外向性、宜人性和神经质)中每一个的方差,并比较了聊天类别(即人类与聊天机器人聊天)之间的方差。为了复制结果,我们还从另一个名为 小冰 的聊天机器人收集了聊天机器人的聊天记录,小冰是微软设计的中文社交聊天机器人。然后我们使用身份评级任务(图 1a) 和功能磁共振成像 (fMRI) 来分析暴露于主观上无法区分的聊天机器人和人类聊天的心智化网络中的活动模式。评估了 27 名参与者,每位参与者需要判断 8 个人类聊天和 8 个聊天机器人聊天。根据身份评分,我们筛选出主观上无法区分的聊天机器人和真人聊天。我们检查了主观上无法区分的聊天机器人和人类聊天是否可以通过心理化网络区域的多体素 fMRI 活动模式来表征,包括右颞顶交界处 (rTPJ)、左颞顶交界处 (lTPJ)、背内侧前额叶皮层 (DMPFC) ) 和腹内侧前额叶皮层 (VMPFC) (图 1b、c). 最后,我们通过执行中文版的身份评级任务来探索分类结果的可重复性。我们的行为结果显示,从 Google Meena 和 Microsoft 小冰 生成的聊天机器人聊天中感知到的个性差异大于人类聊天。我们的神经影像数据表明,心理化网络中响应聊天机器人与人类聊天的不同大脑活动模式无法在主观上加以区分。本研究支持 NLP 产生的语言的使用模式存在不稳定性,这种不稳定性导致 NLP 产生的语言和人类产生的语言之间心理化网络活动的不同模式,说明增加了一个判断。

比较人类产生的语言和 NLP 产生的语言之间的神经活动差异

图1:a) 身份评级任务的设计。法官需要阅读参与者 A 和参与者 B 之间的聊天记录,然后在阅读每条聊天记录后判断参与者 B 的身份(每个审讯员检查 16 条聊天记录)(8 个聊天机器人和 8 个聊天机器人)。身份评级判断提出了以下问题:参与者 B 是聊天机器人还是人类?(1- 绝对是聊天机器人;2- 可能是聊天机器人;3- 可能是人类;4- 绝对是人类)。b) 心智化感兴趣区域 (ROI)。我们在心智化网络中定义了先验 ROI,包括右颞顶交界处 (rTPJ)、左颞顶交界处 (lTPJ)、背内侧前额叶皮层 (DMPFC) 和腹内侧前额叶皮层 (VMPFC)。c) 对于每次聊天识别特定类别的表示。

2 结果

2.1 从聊天机器人聊天中感知到的人格不稳定

为了测试从聊天机器人聊天中感知到的个性在整个上下文中不稳定的可能性,获得了由谷歌开发的英语社交聊天机器人 Meena 制作的 8 个聊天机器人聊天,以及由不同个人制作的 8 个人类聊天。所有的聊天机器人和人类聊天都是在连续、自由的对话中获得的。20 名母语或官方语言均为英语的参与者根据大五人格量表评估了每次聊天中受访者的性格。我们计算了每次聊天(8 次人类聊天和 8 次聊天机器人聊天)的五个人格维度(即开放性、责任心、外向性、宜人性和神经质)中每一个的方差,并比较了聊天类别(即人类与聊天机器人聊天)之间的方差) 使用置换测试。p  = 0.01)。

为了从聊天机器人聊天中复制更大的感知个性差异,我们还收集了另一个名为 小冰 的聊天机器人的聊天记录,这是一个由微软设计的中文社交聊天机器人。我们收集了 42 条人类聊天和 42 条聊天机器人聊天,然后招募了 165 名独立参与者,根据大五问卷评估这些聊天的受访者的性格(评估每个聊天的参与者人数从 10 到 20 不等,平均值 = 16.3);请注意,所有评估参与者都是以中文为母语的人。我们计算了每个聊天的每个个性维度的方差,并使用排列测试比较了聊天类别(即人类和聊天机器人聊天)之间的方差。简而言之,结果表明,神经质、宜人性、尽责性、p < 0.001;宜人性:排列p < 0.001;尽责性:排列p < 0.001;开放性:排列p  = 0.009)。

2.2 身份评级任务的行为结果

为了确定来自 Google Meena 和人类的聊天是否以不同的大脑活动模式为特征,我们使用了身份评级任务(图 1a )与fMRI,其中每个参与者充当法官,需要阅读“参与者A”和“参与者B”之间的聊天记录,然后在阅读每条聊天记录后判断“参与者B”的身份。每个被定义为“参与者 A”的志愿者与聊天机器人或一个人(即“参与者 B”)进行 1:1 的对话,而无需期望或指示对话内容以产生聊天。对于每次聊天,“参与者 A”和“参与者 B”之间的对话持续 4 秒;这是一个接一个地完成的,间隔可变(1-7 秒,平均值 = 4 秒)。在所有对话回合的呈现之后,完整的聊天在 20 秒的间隔后呈现。身份评级判断提出了以下问题:本次聊天中的“参与者 B”是聊天机器人还是人类?(1-绝对是聊天机器人;2- 可能是聊天机器人;3- 可能是人类;4-绝对是人类)。涉及 27 名参与者,每位参与者需要判断 16 个聊天(8 个人类聊天和 8 个聊天机器人聊天)。

我们的结果表明,有 9.41 ± 1.80 个聊天被评为“人类”(身份评分 ≥ 3)。其中,有 4.70 ± 1.56 个人类聊天被评为“人类”(HRH),4.70 ± 1.27 个聊天机器人聊天被评为“人类”(CRH)。有 6.59 ± 1.80 个聊天被评为“聊天机器人”(身份评分≤2)。其中,被评为“Chatbot”(HRC)的人类聊天有 3.30±1.56 个,被评为“Chatbot”(CRC)的聊天机器人聊天有 3.30±1.27 个。我们还收集了参与者的敏感性和特异性平均值 (SSA),每个参与者需要判断 16 个聊天(8 个人类聊天和 8 个聊天机器人聊天)。

我们的结果表明,有 9.41 ± 1.80 个聊天被评为“人类”(身份评分 ≥ 3)。其中,有 4.70 ± 1.56 个人类聊天被评为“人类”(HRH),4.70 ± 1.27 个聊天机器人聊天被评为“人类”(CRH)。有 6.59 ± 1.80 个聊天被评为“聊天机器人”(身份评分≤2)。其中,被评为“Chatbot”(HRC)的人类聊天有 3.30±1.56 个,被评为“Chatbot”(CRC)的聊天机器人聊天有 3.30±1.27 个。我们还收集了参与者的敏感性和特异性平均值 (SSA),每个参与者需要判断 16 个聊天(8 个人类聊天和 8 个聊天机器人聊天)。

我们的结果表明,有 9.41 ± 1.80 个聊天被评为“人类”(身份评分 ≥ 3)。其中,有 4.70 ± 1.56 个人类聊天被评为“人类”(HRH),4.70 ± 1.27 个聊天机器人聊天被评为“人类”(CRH)。有 6.59 ± 1.80 个聊天被评为“聊天机器人”(身份评分≤2)。其中,被评为“Chatbot”(HRC)的人类聊天有 3.30±1.56 个,被评为“Chatbot”(CRC)的聊天机器人聊天有 3.30±1.27 个。我们还收集了参与者的敏感性和特异性平均值 (SSA),80 个聊天被评为“Chatbot”(身份评分≤2)。其中,被评为“Chatbot”(HRC)的人类聊天有 3.30±1.56 个,被评为“Chatbot”(CRC)的聊天机器人聊天有 3.30±1.27 个。我们还收集了参与者的敏感性和特异性平均值 (SSA),80 个聊天被评为“Chatbot”(身份评分≤2)。其中,被评为“Chatbot”(HRC)的人类聊天有 3.30±1.56 个,被评为“Chatbot”(CRC)的聊天机器人聊天有 3.30±1.27 个。我们还收集了参与者的敏感性和特异性平均值 (SSA),[ 42 ]这是一个结合了类人聊天机器人两个基本方面的指标:有意义和具体。我们的结果表明识别评分与敏感性和特异性平均值 (SSA) 之间存在显着正相关(r  = 0.669,p < 0.005;图 S1,支持信息)。

2.3 从心理化网络区域模式分类聊天身份

我们检查了来自 Google Meena 和人类的聊天是否以心理化网络区域的多体素 fMRI 活动模式为特征,包括 rTPJ、lTPJ、DMPFC 和 VMPFC。我们根据先前对心理化网络的荟萃分析研究定义了先验感兴趣区域 (ROI)(在蒙特利尔神经病学研究所 [MNI] 空间中坐标;半径为 10 毫米的球体;rTPJ:x = 56,y  = -54  ,z  = 26;lTPJ:x  = −52,y  = −58,z  = 24;DMPFC:x  = 0,y  = 58,z  = 12;VMPFC:x  = 0,y  = 52,z  = −8;图 1b)。分析侧重于阅读聊天时的活动模式(即,从第一个问题及其对给定聊天的最后一个问题及其响应的响应)。每个聊天的激活值由通用线性模型 (GLM) 评估,并用于多体素模式分析 (MVPA;图 1c )。使用排列检验来评估结果的显着性。

我们首先确定活动模式是否可以在聊天类别(即人类与聊天机器人)之间对真实身份进行分类。真实身份的平均分类准确度高于 DMPFC(机会水平 = 50%,平均分类准确度 = 68.75% ± 10.96%,排列 p = 0.0002;图 2a)和 rTPJ(平均分类准确度)的基于排列的 显着 性水平= 63.89% ± 14.33%,排列p  = 0.0012),但不适用于 lTPJ(平均分类准确度 = 46.99% ± 13.01%,排列p  = 0.90)或 VMPFC(平均分类准确度 = 45.60% ± 12.72%,排列p  = 0.97)。

比较人类产生的语言和 NLP 产生的语言之间的神经活动差异

图2:a) 真实身份的分类准确度(人类与聊天机器人)。b) 评级身份的分类准确性(评级为人类与评级为聊天机器人)。c) 真实身份的 DMPFC 分类准确度与真实身份之间的身份评分差异之间的相关性。d) 评级身份的 VMPFC 分类准确度与评级身份之间的身份评分差异之间的相关性。虚线代表机会水平(50%);* p < 0.05,** p < 0.01,*** p < 0.001;误差线表示 sem

接下来,我们确定活动模式是否可以对聊天类别之间的评级身份进行分类(即,被评为人类与被评为聊天机器人)。额定身份的平均分类准确度高于 VMPFC 基于排列的显着性水平(平均分类准确度 = 59.95% ± 16.38%,排列p  = 0.0030;图 2b),但不是 DMPFC(平均分类准确度 = 39.81% ± 14.00%,排列p  = 1),rTPJ(平均分类准确度 = 39.81% ± 17.69%,排列p  = 1)或 lTPJ(平均分类准确度 = 41.20% ± 13.00%,排列p  = 1)。

相关性分析表明,真实身份之间较大的身份评分差异与较高的真实身份 DMPFC 分类准确度相关(r  = 0.47,p  = 0.013;图 2c);评级身份之间较大的身份评分差异与评级身份的较高 VMPFC 分类准确度相关(r  = 0.42,p  = 0.030;图 2d)。

2.4 根据 DMPFC 和 rTPJ 的活动模式对主观上无法区分的聊天机器人和人类聊天之间的聊天身份进行分类

我们的结果表明,DMPFC 和 rTPJ 的活动模式可用于对聊天的真实身份进行信息分类(即,人类与聊天机器人)。有些人可能会争辩说,分类准确性主要是由主观上可区分的人类和聊天机器人聊天(即 HRH 与 CRC)贡献的,而不是由主观上无法区分的人类和聊天机器人聊天(即 HRH 与 CRH)贡献的。因此,我们检查了 DMPFC 和 rTPJ 的活动模式是否仍可用于对主观上无法区分的人类和聊天机器人聊天(即 HRH 与 CRH)之间的真实身份进行分类。主观上无法区分的人类和聊天机器人聊天之间真实身份的平均分类准确度仍然高于 DMPFC 基于排列的显着性水平(平均分类准确度 = 55.p  = 0.021;图 3a ) 和 rTPJ(平均分类准确度 = 57.34% ± 12.77%,排列p  = 0.0032)。

比较人类产生的语言和 NLP 产生的语言之间的神经活动差异

图3:a) 被评为“人类”的聊天的分类准确度。DMPFC 和 rTPJ 的活动模式仍然可以在主观上无法区分的人类和聊天机器人聊天之间对真实身份进行分类。b) 在重复实验中被评为“人类”的聊天分类准确度。聊天机器人聊天是由微软设计的中文社交聊天机器人小冰制作的。虚线代表机会水平(50%);* p < 0.05,** p < 0.01,*** p < 0.001;误差线表示 sem

2.5 跨主题相似度

接下来,我们通过使用跨主题相关性探讨了四个聊天类别(即 HRH、HRC、CRH 和 CRC)之间的活动相似性。该分析的目的是确定特定的聊天类别对是否揭示了不同主题的相似活动。我们对每个聊天类别的激活值进行平均,并提取每个 ROI 的平均激活值。我们通过计算跨主题的所有聊天类别对之间的相关性来计算 ROI 内的相似性矩阵。DMPFC 相似性矩阵表明 HRC 和 HRH 之间(r  = 0.52,FDR 校正的p  = 0.034;图 4a)和 CRH 和 CRC 之间(r  = 0.51,FDR 校正的p = 0.035)。rTPJ 相似性矩阵表明,HRC 和 HRH 之间( r  = 0.59,FDR 校正的p  = 0.0066;图 4b)以及 CRH 和 CRC 之间(r  = 0.52,FDR 校正的p = 0.027)也存在相似的活动 。这些结果表明,无论身份判断如何,特定生成器(人类或聊天机器人)产生的聊天都会在 DMPFC 和 rTPJ 中引起跨主题的类似活动。在 lTPJ 矩阵中未检测到显着差异(图 4c)。VMPFC 相似性矩阵表明 CRH 和 HRH 之间存在相似的活动(r  = 0.66,FDR 校正p  = 0.0006;图 4d), 表明被评为“人类”的聊天在 VMPFC 中引起了跨主题的类似活动,无论真实身份如何。

比较人类产生的语言和 NLP 产生的语言之间的神经活动差异

图4:a) DMPFC 相似度矩阵。b) 右 TPJ 相似矩阵。c) 左 TPJ 相似矩阵。d) VMPFC 相似度矩阵。HRH = 被评为“人”的人类聊天,HRC = 被评为“聊天机器人”的人类聊天,CRH = 被评为“人类”的聊天机器人聊天,CRC = 被评为“聊天机器人”的聊天机器人聊天。* p < 0.05,** p < 0.01,*** p < 0.001。

2.6 全脑分类探照灯分析

我们进行了探索性全脑探照灯分析,以在整个大脑中分别识别每个身份分类(即真实身份分类和额定身份分类)中编码类别特定信息的大脑区域。对于真实身份分类,模式分类在 rTPJ 和 DMPFC 中是稳健的(使用p < 0.001 [未校正的初始聚类形成阈值,p < 0.05,具有家庭错误 [FWE] 校正阈值的聚类级校正];图5a)。对于额定身份分类,模式分类在 VMPFC 中是稳健的(图 5a ). 为了探索全脑激活与心理化网络之间的关系,我们使用 Neurosynth (neurosynth.org) 平台搜索术语“心理化”并提取相应的激活掩码,并对全脑激活与 Neurosynth 心理化进行联合分析面具。我们的结果表明全脑激活与 NeuroSynth“心智化”元分析生成的掩码之间存在重叠(图 5b)。

比较人类产生的语言和 NLP 产生的语言之间的神经活动差异

图5:a) 全脑探照灯结果。对于真实身份分类,模式分类在 rTPJ 和 DMPFC 中是稳健的。对于额定身份分类,模式分类在 VMPFC 中是稳健的。b) 全脑激活和 Neurosynth 心智化网络之间的重叠。rTPJ:右颞顶交界处;DMPFC:背内侧前额叶皮层;VMPFC:腹内侧前额叶皮层。

2.7 中文版身份评级任务的结果

我们通过执行中文版的身份评级任务来探索分类结果的可重复性。在中文版的身份评级任务中,2 条聊天机器人聊天由微软设计的中文社交聊天机器人小冰制作,6 条真人聊天由不同的个人制作。然后,我们招募了 49 名母语为中文的参与者来执行中文版的身份评级任务。实验遵循与上文针对身份评级任务的英文版本详述的相同程序。我们的结果表明,有 5.51 ± 1.62 个聊天被评为“人类”(身份评分 ≥ 3)。有 2.49 ± 1.62 个聊天被评为“聊天机器人”(身份评分≤2)。

我们首先确定活动模式是否可以在聊天类别(即人类与聊天机器人)之间对真实身份进行分类。真实身份的平均分类准确度高于 DMPFC 基于排列的显着性水平(机会水平 = 50%,平均分类准确度 = 57.14% ± 18.40%,排列 p = 0.0068;图 S2a,支持信息) 和 lTPJ(平均分类准确度 = 60.20% ± 19.71%,排列p  = 0.0008),但不适用于 rTPJ(平均分类准确度 = 47.96% ± 24.91%,排列p  = 0.69)或 VMPFC(平均分类准确度 = 47.45% ± 24.60%) , 排列p  = 0.75).

接下来,我们确定活动模式是否可用于对聊天类别之间的评级身份进行分类(即,被评为人类与被评为聊天机器人)。额定身份的平均分类准确度高于 VMPFC(平均分类准确度 = 56.64% ± 14.71%,排列p  = 0.0048;)和 lTPJ(平均分类准确度 = 55.29%)的基于排列的显着性水平± 16.77%,排列p  = 0.016),但不适用于 DMPFC(平均分类准确度 = 48.42% ± 20.80%,排列p  = 0.69)或 rTPJ(平均分类准确度 = 40.99% ± 23.11%,排列p = 1). 请注意,相关性分析表明分类准确度与任何 ROI 的身份评级分数差异之间没有显着相关性。

然后,我们确定 DMPFC 和 rTPJ 的活动模式是否仍可用于对主观上无法区分的人类和聊天机器人聊天(即 HRH 与 CRH)之间的真实身份进行分类。主观上无法区分的人类和聊天机器人聊天之间真实身份的平均分类准确度仍然高于 DMPFC 基于排列的显着性水平(平均分类准确度 = 65.91% ± 20.23%,排列 p = 0.027;图 3b ) 但 不是rTPJ (平均分类准确度 = 47.73% ± 26.11%,排列p  = 0.73)。由于聊天机器人聊天的数量有限,我们没有进行跨主题相似性相关分析。

我们对身份评级任务的英语版本进行了与上述相同的探索性全脑探照灯分析,以在整个大脑中分别识别每个身份分类(即真实身份分类和额定身份分类)中编码类别特定信息的大脑区域。用于真实身份分类的左侧中央前回的模式分类是稳健的(使用p < 0.001 [未校正] 的初始聚类形成阈值进行p < 0.05校正,具有家族错误 [FWE] 校正阈值的聚类水平校正) . 对于额定身份分类,模式分类在所有区域都不是稳健的。

2.8 单独的阅读任务将聊天内容本身排除在观察到的分类之外

我们使用阅读任务来测试心智化网络中聊天类别特定的分类是否仅在参与者需要从聊天内容中推断参与者 B 的身份的情况下发生。阅读任务的实验过程与中文版身份评级任务几乎相同;不同之处在于,对于阅读任务,参与者回答了一个关于给定聊天相关细节的多项选择题。我们后来要求参与者为聊天“参与者 B”给出身份评分,但他们没有提前告知这一要求。46 名参与者接受了阅读任务评估。

真实身份的平均分类准确度高于 rTPJ 基于排列的显着性水平(机会水平 = 50%,平均分类准确度 = 56.52% ± 20.71%,排列 p = 0.021; ) 但不是DMPFC(平均分类准确度 = 53.26% ± 23.34%,排列p  = 0.20)、lTPJ(平均分类准确度 = 48.91% ± 21.71%,排列p  = 0.71)或 VMPFC(平均分类准确度 = 49.46% ± 18.63%) , 排列p  = 0.64). 额定身份的平均分类准确度不高于任何 ROI 的基于排列的显着性水平(DMPFC:平均分类准确度 = 54.73% ± 24.28%,排列p = 0.14;rTPJ:平均分类准确度 = 48.42% ± 23.04%,排列p  = 0.69;lTPJ:平均分类精度 = 52.59% ± 21.59%,排列p  = 0.27;VMPFC:平均分类精度 = 51.58% ± 24.08%,排列p  = 0.34;)。主观上无法区分的人类和聊天机器人聊天之间真实身份的平均分类准确度高于基于排列的显着性水平(DMPFC:平均分类准确度 = 48.61% ± 22.53%,排列 p = 0.65;rTPJ:平均分类准确度=  51.62 % ± 21.38%,排列p  = 0.39)。

这些来自评估一组身份判断天真的参与者的阅读任务的结果从经验上支持,仅当参与者需要根据聊天内容判断“参与者 B”的身份时,心智化网络中的聊天类别特定分类才会发生。

3.讨论

我们的行为结果显示,与人类聊天相比,从聊天机器人聊天中感知到的性格差异更大。神经成像分析表明,主观上无法区分的聊天机器人和人类聊天在心智化网络区域(包括 DMPFC 和 rTPJ)中引发了不同的大脑活动模式。由特定生成器(人类或聊天机器人)产生的聊天在 DMPFC 和 rTPJ 中引起跨主题的类似活动,而不管身份判断如何。

说话人的意思是说话人想要用特定的话语进行交流的预期含义。说话人意思的理解不仅仅是词义或句子层面的检索,这需要心智化网络。心理化描述了我们推断他人内心想法和意图的认知活动。为了在身份评级任务中判断“参与者 B”的身份,参与者需要检索语言,然后推断含义和社会信息。心理化建立了能够洞察“参与者 B”的思想身份的背景,从而更好地理解受访者。对心智化的神经基础的早期调查观察到一个典型的激活网络,其中包括内侧前额叶皮层和 TPJ。各种心智化任务持续激活内侧前额叶皮层和 TPJ。正确的 TPJ 与精神状态推理有关,即思考其他人的信仰、情感和欲望。在自我-其他心理状态推理任务中,右侧 TPJ 的激活也被证明与自闭症谱系障碍综合征的严重程度有关。 DMPFC 参与了一个称为持续内部监控的过程。冲突监控和错误监控也被认为依赖于 DMPFC 中实例化的一些底层进程。我们对结果的解释表明,对于主观上无法区分的聊天机器人聊天,参与者可以通过推断互动伙伴在心智化网络中的信念、情感和欲望,不断评估聊天机器人与人类之间不明显的不匹配。我们的神经影像学结果表明,心智化网络中的神经活动可用于区分 NLP 生成的语言和人类生成的语言,即使无法主观区分这些语言。

我们在心理化网络中检测到的神经活动模式可能是由于 NLP 使用模式的变化。回想一下我们最初的发现,该发现表明与人类聊天相比,聊天机器人聊天表现出更大的感知个性差异(在包括宜人性和神经质在内的维度上)。据我们了解,人格特质代表了一种可靠而稳定的方式来指示个人的思想、感受和行为。数百项使用不同方法、工具和人群的研究一致发现,在长达 40 年的时间间隔内,人格特质的重测稳定性很高。荟萃分析对 243 个人格特质重测系数的研究表明,间隔 15 年后的平均观察值将约为 0.60(根据 Cohen 的经验法则,相关性大于 0.50 是很大的)。使用大学生的写作样本,研究人员发现大五人格维度对单词选择的可靠影响。它还强调,以前的工作已经确定人们的语言使用模式满足跨上下文一致性和跨时间稳定性的基本心理测量要求。因此,从给定的人的语言材料中感知到的人格应该是稳定的。然而,回想一下,当前的 NLP 方法是基于来自非常大的数据集的语言建模,这些数据集包含由许多不同的人产生的语言材料。因此,NLP 生成的语言本质上代表了多重人格,这表明 NLP 的语言使用模式在上下文中不稳定且不一致。我们的数据支持参与者没有主观地检测到某些但不是所有 NLP 使用模式的任何异常变化。然而,我们表明,这种异常变化可以根据心智化网络中的神经活动可靠地检测到。

我们的结果支持,在衡量 NLP 生成的语言的质量时,将神经活动添加为附加标准将产生更精确和全面的信息。我们表明,在心理化网络中检测到 NLP 生成的语言和人类生成的语言之间主观上无法检测到的细微差异;迭代测试和实验见解的结合可以显着推进 NLP 和人工智能其他领域的发展。在心理学中,自我报告是任何依赖于个人对其行为、态度、信念或症状的报告的测量或调查。它可以产生很多有价值的信息。大多数心理学研究和诊断专家认为,自我报告存在局限性,不应单独使用。最好将自我报告与其他信息(例如个人的生理或神经数据)结合起来进行测量。这种“多方法”评估可能会提供更准确的受试者数据。

我们的结果表明,心理化网络中的一个单独电路负责处理聊天机器人和人类之间主观评价的身份。我们的结果发现,活动模式可用于对聊天类别之间的评级身份进行分类(即,被评为人类与被评为聊天机器人)。此外,被评为“人类”的聊天在 VMPFC 中引起了跨主题的类似活动。也就是说,无论“参与者 B”的真实身份(聊天机器人还是人类)如何,被识别为人为产生的聊天都会在 VMPFC 中引发类似的活动。VMPFC 与自我参照判断有关,指出思考自己和思考他人之间的联系。将聊天判断为人为产生可能会促使法官对人类的特征、信仰和/或精神状态做出推断,这可能会触发由 VMPFC 调解的自我参照处理。

4.结论

确定用于衡量 NLP 生成的语言质量的信息标准可以支持开发更好的 NLP 工具。本研究提供了经验证据,表明 NLP 生成的语言的使用模式在不同的对话主题中并不稳定,并表明这种不稳定性导致 NLP 生成的语言和人类生成的语言之间不同的心智化网络活动模式。我们的研究表明,赋予对话系统特定人格特质对于提供更像人类的对话至关重要,从而对 NLP 领域做出了贡献。另一个贡献是我们的研究成功地将神经影像技术应用于人工智能领域,以评估 NLP 产生的语言质量。未来的研究可能会探讨将神经活动数据作为隐式索引添加到标准图灵测试评估标准中的可行性。此外,未来应该像标准图灵测试一样,以大样本量和实时通信来阐明法官的语言能力与神经活动敏感性之间的关系。

在身份评级任务中,参与者阅读聊天内容并为聊天对话者给出身份评级分数,这确实允许对主观上无法区分的聊天机器人聊天和人类聊天进行分类。如果可以获得足够灵敏的神经影像学仪器,确定我们关于内隐感知差异的发现是否可以在标准图灵测试中复制将是一件很有趣的事情。我们预计添加法官的隐性感知数据可能成为进行图灵测试的标准准则。

关于研究的局限性,我们的 fMRI 分析的样本量很小,部分原因是 fMRI 技术的访问受限和设置时间长。自然地,这限制了我们分析的统计能力;理想情况下,一种生产成本低廉且易于使用但又具有适当灵敏度的用于监测相关大脑区域(例如 DMPFC 和 rTPJ)的设备将大大扩展神经影像学和内隐感知差异在评估 NLP 产生的语言中的使用。另一个限制是用于为我们在本研究中检查的两个身份评级任务中的第二个生成人类聊天内容的人类人口在某种程度上是同质的:15-19 岁的高中女生。这在第一个实验中得到了扩展(基于随机选择的人类聊天内容),但是用于训练被检查的小冰和 Meena 的材料范围与人类材料的范围仍然存在差距。因此,除了简单区分机器与人类(即,对于任何个性或语言使用调查)之外,对围绕主题的任何解释都需要谨慎。

论文链接:https://onlinelibrary.wiley.com/doi/epdf/10.1002/advs.202203990

—煤油灯科技victorlamp.com编译整理—

版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。

(0)

相关推荐

发表回复

登录后才能评论