人工的人工智能：大型语言模型(LLM)对众包工人的影响

大型语言模型（LLMs）是出色的数据注释工具。它们可以用于生成高保真度的有监督训练数据、以及调查和实验数据。随着LLMs的广泛应用，人工标准注释对于理解LLMs的能力和其结果的有效性至关重要。然而，众包是一种重要且廉价的获取人工注释的方式，但其本身可能受到LLMs的影响，因为众包工作者有经济激励使用LLMs以提高生产力和收入。为了调查这一问题，我们对众包工作者使用LLMs的普遍程度进行了一项案例研究。我们在Amazon Mechanical Turk上运行了一项来自文献的摘要概括任务，并通过键盘输入检测和合成文本分类的组合，评估完成该任务的众包工作者中有33-46％使用了LLMs。尽管对于其他不太适合LLMs的任务的泛化情况尚不清楚，但我们的结果呼吁平台、研究人员和人群工作者找到新的方法来确保人类数据仍然是人类的，也许可以将本文提出的方法作为一个垫脚石。代码/数据：https://github.com/epfl-dlab/GPTurk。

1 介绍

通常情况下，人向计算机发出请求，计算机完成任务的计算。但像Mechanical Turk这样的人工智能颠覆了这一切。———杰夫·贝索斯（亚马逊CEO）

大规模计算机视觉数据集和大规模心理实验有一个共同点，它们都依赖于在Amazon Mechanical Turk（MTurk）、Prolific或Upwork等平台上进行的众包工作。这些众包平台已经成为研究人员和行业从业者的重要工具，并提供了创建、注释和总结各种数据的方法，以及进行调查和实验。

与此同时，包括ChatGPT、GPT-4、PaLM和Claude在内的大型语言模型（LLMs）在数字世界中引起了轰动。早期研究表明，LLMs是出色的数据注释工具，胜过了众包工作者和专家。此外，它们在模拟人类行为方面显示出潜力，使社会科学家能够进行计算实验和调查，获得与真实人类相似的结果。然而，人类实验对象、注释员和调查参与者仍然对由LLMs导出的结果的有效性保持批评态度，因为它们在各种任务中的表现仍然较差，而LLMs生成的合成数据与真实数据可能不是很吻合。

在这种情况下，很容易依赖众包来验证 LLM 输出或创建人类标准数据进行比较。但是，如果众包工作者本身正在使用LLMs，例如为了提高在众包平台上的生产力和收入，那该怎么办呢？我们认为这将严重降低众包数据的有效性，因为数据将不再是预期的人工标准，而且由于可以直接调用LLMs（可能更便宜），而不是支付众包工作者来完成这项工作（可能不会披露此事），这也会降低众包数据的效用。

因此，我们很想知道众包工作者在工作中已经使用LLMs的程度。这个问题的答案对于所有依赖众包的人来说都非常重要，因为如果不知道谁真正产生了数据（究竟是人还是机器），就很难评估可以依赖这些数据的方式。为了回答这个问题的第一步，我们通过在MTurk上进行一项案例研究来量化众包工作者使用LLMs的情况，该研究基于一种检测合成文本的新方法。具体而言，我们考虑了Horta Ribeiro等人的文本摘要任务的一部分，其中众包工作者总结了16篇医学研究论文的摘要，通过结合键盘输入检测和合成文本分类，我们估计有33-46％的摘要是由众包工作者借助LLMs生成的。

我们得出的结论是：尽管LLMs仍处于起步阶段，但通过众包收集的文本数据在很大程度上已经是由机器而不是雇佣的众包工作者产生的。尽管我们的研究专门考虑了文本摘要任务，但是，任何可以轻易将指令传递给LLMs作为提示的文本生成任务很可能受到类似影响。此外，LLMs正变得越来越受欢迎，支持不仅文本，还包括图像和视频的输入和输出的多模态模型也在兴起。因此，我们的结果应被视为“矿井中的金丝雀”，应该提醒平台、研究人员和众包工作者寻找新的方法，确保人工数据仍然是人工的。

2 相关工作

使用众包进行研究

当Amazon Mechanical Turk首次发布时，它被俗称为“人工的人工智能”（参见上面杰夫·贝索斯的开场引语），因为对于请求者（将任务上传到平台的用户）来说，似乎是一个人工智能系统在解决他们的任务，尽管实际上是人类在进行解决。从转录任务到图像标注，MTurk引领了机器学习数据集创建方式以及用户研究、调查和社会科学实验的范式转变。

关于众包的研究

MTurk的普及以及随后出现的众多众包平台，导致了丰富的关于众包的文献。先前的研究探讨了如何高效利用众包及其所有限制来完成各种任务，对众包注释的整体质量进行了审核，并揭示了使用众包平台的工作者的人口统计学和社会经济状况。

LLM生成的数据

正如之前提到的，LLMs可以作为人类群体的有效代理，这导致了一系列使用LLMs作为“硅样本”的研究。通常，这些分析是通过一种控制性文本生成的变体来完成的（此外，越来越多的研究表明，LLMs作为人类标注的代理具有良好的性能，并且可以生成高质量的文本（但通常在事实准确性方面存在问题），这已经引起了大众和媒体的兴趣。

检测LLM生成的数据

无论是对于机器学习模型还是对于人类，区分LLM生成的文本和人类生成的文本都很困难。例如，OpenAI自己的LLM-vs.-human分类器只能识别26%的LLM撰写的文本（参见https://openai.com/blog/new-ai-classifier-for-indicating-ai-written-text）。因此，在像ChatGPT这样的LLM爆炸性流行的背景下，人们普遍关注它们在社交媒体（可以用于生成垃圾邮件或虚假信息）或高等教育（可以用于作弊作业和考试）等领域的使用。这些关注点已经引发了关于通过在采样过程中微调每个令牌的概率来为LLM输出添加水印的工作，以及进一步改进合成文本检测方法的研究。

3 方法

我们在图1中展示了我们的整体方法，并在下面进行详细描述。

图1：我们用于量化在文本摘要任务中众包工作者使用LLM的普遍程度的方法示意图。

首先，我们使用真正由人类撰写的MTurk回应和由LLM合成的回应来训练一个特定任务的合成与真实分类器。其次，我们将这个分类器应用于真实的MTurk回应（工作者可能使用或不使用LLM），从而估计LLM使用的普遍程度。此外（未显示），我们还通过对MTurk回应的按键数据进行事后分析来验证我们结果的有效性。

3.1选择的任务：摘要总结

我们修改了Horta Ribeiro等人（2019年）最初设计的一个MTurk任务，其目标是研究所谓的“电话效应”，即信息在信息级联中从人传递到人时逐渐丢失或扭曲的现象。作为他们的实验的一部分，众包工作者被给予了发表在《新英格兰医学杂志》（NEJM）上的医学研究论文摘要，并被要求将原始摘要（约2000个字符）总结成一个更短的段落（约1000个字符）。然后，这个过程使用总结而不是原始摘要作为输入文本进行多轮迭代。原始摘要涉及公众关注的四个研究主题（疫苗接种、乳腺癌、心血管疾病和营养），每个主题选择了四篇论文，总共16个摘要。我们选择这个任务进行研究有两个原因：首先，对人类来说，这是一项费时费力的任务，但在商业上可用的LLMs的帮助下很容易完成。其次，这是一个很好的例子，说明在这种任务中真正需要人类文本：Horta Ribeiro等人（2019年）的目的是研究当人们总结文本时信息的丢失程度，而这是不可能通过合成生成的数据而不是人类生成的数据来实现的。

在原始研究中，众包工作者对每个原始摘要产生了逐渐缩短的八个总结，形成了完整的信息级联。然而，为了我们的目的，我们将任务简化为一个单一的摘要步骤，将摘要压缩成大约100个字的简洁总结（如图2所示的示例）。工作者每个摘要获得1美元的报酬，我们保守估计完成一份摘要需要大约4分钟，因此报酬率为15美元/小时。

图2：本文研究中研究的MTurk任务的描述，要求众包工作者将《新英格兰医学杂志》的研究摘要压缩成大约100个词的摘要。

我们获取了44个不同工作者写的48个摘要。其中两个摘要是重复的，我们进行了去重处理，留下了46个摘要，摘要是在2023年6月1日左右撰写的。除了摘要，我们还使用Javascript提取了工作者在执行任务过程中的所有按键操作，包括复制和粘贴操作（使用Ctrl+C和Ctrl+V键盘快捷键或右键点击后出现的菜单操作）。

3.2 检测合成文本

为了评估在所描述的摘要任务中使用LLM的普遍程度，我们需要检测众包工作者提供的答案是否是通过合成生成的。针对简单文本的开箱即用解决方案，如GPTZero、OpenAI的AI Detector或Writer，在我们的情境中无法有效地执行；例如，我们通过ChatGPT合成的10个摘要中，GPTZero只能检测出其中六个是合成的。

因此，我们依赖于更专门的解决方案，通过微调我们自己的模型来检测ChatGPT的使用情况。目前，ChatGPT是最常用的LLM。尽管在本文中我们只考虑了少数摘要，但这种方法在将来规模更大的数据集上也更易处理，因为API调用可能既昂贵又慢。

模型架构

我们使用了e5-base预训练模型作为主要的架构。该模型是使用对比损失进行预训练的，并在微调分类任务时取得了出色的性能。在微调过程中，我们使用了学习率为2×10−52times10^{-5}2×10−5 ，批大小为32，最大令牌长度为256，并进行了五个epoch的训练。我们保存了在验证集上表现最佳的模型以供后续使用。

数据

为了训练分类器，我们使用了三个数据集，都源自或派生自所讨论的MTurk任务（参见图1）。真实的人类文本实例包括16个原始摘要和Horta Ribeiro等人在MTurk任务中获得的真实人类回答（128个高质量摘要）。我们通过使用MTurk任务的说明作为提示，通过ChatGPT生成了合成实例。我们怀疑很多众包工作者也是这样做的，因为他们经常复制这个说明，通过按键记录检测到这一点。对于每个摘要，我们为两个温度值（0.7和1）生成了10个不同的摘要，共得到了320个合成样本。

训练

我们在两种训练/测试设置下训练了模型：摘要级别划分和总结级别划分。在摘要级别划分中，我们将摘要分为两个不相交的集合：12个摘要用于训练和验证，4个摘要用于测试，共计370个训练数据点。摘要级别划分用于评估模型在未在训练中见过的摘要的合成摘要中提取可推广的特征的能力。在摘要总结级别划分中，我们随机划分了真实和合成的摘要数据集，将75%的摘要用于训练，10%用于验证，15%用于测试。在摘要总结级别设置下，相同摘要的（不同）摘要可能同时出现在训练集和测试集中。

验证

为了确认我们结果的有效性，我们使用一组启发式方法来评估我们数据的特定子集是合成生成还是高精度的人为生成。首先，我们假设完全在MTurk提供的文本框中编写的摘要是真实的，从而可以评估我们上述描述的分类模型（不考虑按键）的误报率。其次，对于使用粘贴的摘要，我们检查粘贴的文本中有多少部分来自原始摘要（因为众包工作者只是在摘要中重新排列部分内容），以及有多少部分是新的文本。与原始摘要的重叠比例被操作化为在原始摘要和摘要中都存在的最长公共子串。在假设与原始摘要几乎没有关系的粘贴摘要是合成生成的情况下，我们可以了解我们模型的漏报率。

4 结果

合成文本检测器的性能

我们在表1中报告了摘要级别和总结级别的数据拆分（参见第3.2节）的结果。在总结级别的设置中，将来自所有摘要的摘要汇总后再拆分数据，在我们的微调模型中实现了99%的准确率和99%的macro-F1分数。高性能表明ChatGPT的摘要生成缺乏多样性，这是 RLHF 训练的 LLM OpenAI 中的一个已知问题，而我们的较小容量的检测模型似乎能够捕捉到ChatGPT引入的指纹状特征。

表1：总结级别和摘要级别设置下合成与真实分类器的测试性能

摘要级别的拆分表明这些特征在摘要之间是普遍存在的，即使在训练过程中没有看到某些摘要的子集，我们的模型仍然能够成功地识别出97%的合成摘要，macro-F1分数为97%。换句话说，仅通过我们的摘要总结任务训练的ChatGPT检测模型几乎总能识别出新的合成摘要。这些高分数表明，至少对于当前的任务来说，在摘要总结任务中存在一个可识别的ChatGPT指纹，使其学习到了区分真实文本和合成文本的普遍特征。

众包工人中 LLM 使用的普遍程度

由于总体上更高的准确率，我们将在总结级别设置中训练的模型应用于46个新摘要，以检测众包工人中的LLM使用情况。在运行此分类器时，我们需要选择一个决策阈值，高于该阈值的文本被分类为合成的，低于该阈值的被分类为人类生成的。为了确保鲁棒性，我们在广泛的阈值范围内运行分类器，并将根据应用阈值将摘要分类为合成的比例呈现在图3中。在逻辑回归阈值为0（对应预测概率为50%）时，我们估计46个众包摘要中有21个（46%；95% CI：[31%，61%]）是合成生成的。为了避免将模棱两可的示例误分类为合成的，我们可能希望选择一个更保守的LLM使用率估计，选择更高的逻辑回归阈值。例如，使用阈值为4（对应预测概率为98%），我们仍然得出估计结果，即46个众包摘要中有15个（33%；95% CI：[20%，45%]）是LLM生成的。总体而言，我们的估计在广泛的逻辑回归阈值范围内保持稳定，我们得出结论：33-46%的众包摘要是在LLM的帮助下生成的。

图3：根据逻辑斯蒂回归阈值预测为合成摘要的比例

请注意，由于几乎所有用户只提交了一个摘要（44名工人贡献了46个摘要），上述LLM生成摘要的比例也可以解释为使用LLM的众包工人的比例。

验证

在估计了LLM使用率之后，我们进行了一系列分析来确认我们方法的有效性。（在这些分析中，我们使用了更保守的逻辑回归阈值4；请参见上文。）在表2中，我们展示了大多数用户在撰写摘要时至少粘贴了一些文本（影响到46个摘要中的41个，占89%）。实际上，只有五个摘要完全是在文本框中编写而没有进行任何粘贴。重要的是，我们的分类器将所有这些摘要标记为人工编写，这表明分类器的误报率很低（在上述假设下，这些摘要是由人类生成的）。

表2：显示粘贴使用情况（列）与分类器决策（行）之间关联的矩阵。

单元格中包含在生产过程中使用/未使用粘贴的被标记为合成/人工撰写的摘要数量

仅仅进行粘贴并不意味着使用了ChatGPT。特别是，对手头数据的定性分析表明，工人们经常将复杂的措辞或整个摘要从原始内容复制粘贴到文本编辑器中，从而重新利用摘要内容。因此，为了理解被分类为合成和人工的摘要中如何使用复制粘贴，我们计算了每个摘要与原始摘要之间的最长公共子字符串（以下简称“重叠”）。我们的分析在图4中展示，揭示了工人们经常重新使用原始摘要的大部分内容，但更重要的是，被分类为合成的摘要与原始摘要的重叠部分很小。例如，在重叠度小于10%的13个摘要中，有10个（76%）被分类为合成生成的。此外，大多数被分类为合成的摘要与原始摘要的重叠部分很小。这表明进行复制粘贴的内容并不是来自原始摘要的部分，而是来自LLM的输出。

图4：涉及粘贴操作的摘要与原始摘要之间的重叠程度（以最长公共子串的长度与原始摘要长度的比率表示）

5 讨论

人工生成数据在各种应用中扮演着重要角色，其丰富性、独特性和多样性是使其与合成生成数据区分开的关键因素。在这里，我们发现MTurk上的众包工作者在摘要任务中广泛使用LLMs，这引发了对众包文本数据中“人的因素”逐渐被稀释的严重担忧。此外，我们开发了一种稳健且计算成本低的方法来检测合成数据，表明定制的检测模型可能比现成的解决方案更有用。我们的设置与其他可能存在合成生成文本问题的环境非常契合，包括教育领域，在这个领域，测试、论文和作业往往可以通过LLMs迅速且有效地解决。

人们普遍担心LLMs将塑造我们的信息生态系统，即在线上的大部分信息将由LLMs创建。这可能会降低“递归”LLMs的性能，即那些基于合成生成数据训练的模型，并放大这些模型所编码的价值观和意识形态的影响。在这方面，本研究引发了一种担忧，即随着LLMs的普及，获取人类数据可能变得更加困难，因为众包工作者似乎已经广泛使用了LLMs，而随着LLMs的普及和其功能的增强，这个问题可能变得更加严重。

尽管如此，我们并不认为这将意味着众包工作的终结，但它可能会导致对众包工作者所提供价值的根本性转变。众包工作者可能不再提供全新的注释，而是作为一个重要的人类过滤器，用于检测这些模型何时成功何时失败。早期的工作已经在这个方向上取得了重大进展，将人类和语言模型配对，创建高质量、多样化的数据。

局限性

在这项研究中，我们的重点仅限于一个特定的众包任务：文本摘要。虽然摘要捕捉到了一般文本生成任务所需的许多细微差别，但我们承认对于我们的研究结果能否推广到其他任务存在不确定性，尤其是那些对LLMs提出重大挑战的任务。这突显了未来研究的一个重要领域，即全面研究结果在不同任务中的差异以及随着LLMs的普及而随时间演变的情况。尽管如此，我们推测在任何通过文本指令来指定的文本生成任务中，只要这些指令可以作为LLM的提示，所揭示的现象都可能会产生影响，我们的发现应当成为研究人员和从事其他类型数据和任务的实践者的警示。

6 道德考量

我们的研究使用了按键记录来验证结果，虽然对研究有益，但如果处理不当的话，按键追踪可能会侵犯用户的隐私。我们严格限制了按键追踪范围，仅追踪用户与编辑框和复制粘贴的交互。但是，我们认为更广泛地使用跟踪可能会出现问题。

论文链接：https://arxiv.org/abs/2306.07899

—煤油灯科技victorlamp.com编译整理—