分析：AI 助手在回答流媒体可用性查询方面表现不一致

一项针对流媒体影片可用性数据的受控准确率分析发现，在对100部热门美国影片进行人工验证的真实数据进行测试时，ChatGPT的准确率为43.76%，Claude的准确率为50.21%，而流媒体数据和元数据平台Reelgood的准确率则高达96.89%。这项由Reelgood于3月5日进行的分析，使用相同的查询语句，分别对每个数据源进行了测试，测试对象为相同的50部电影和50部电视剧。

随着 AI 助手在内容发现和推荐方面的应用日益广泛，这些研究结果也随之而来。OpenAI 和 Anthropic 都已将其平台拓展至媒体和娱乐领域，而准确的“观看平台”数据是产品集成的一项基本要求。如果 AI 助手错误地告知用户某个影片在实际上并不存在的平台上可以观看，或者漏掉了实际上可以观看的平台，那么由此产生的后果包括用户沮丧、点击浪费以及对平台信任度的下降。

为什么LLM生成的片源可用性数据不可靠

大语言模型(LLM)并非为追踪实时目录变化而构建。它们所使用的训练数据和检索流程是为其他目的而设计的，因此，当它们被要求报告哪些内容正在哪些平台播放时，就会出现一系列可预见的错误。

Reelgood 的分析识别出六种不同的错误类别，这些错误类别解释了 ChatGPT 和 Claude 回答中大部分的不准确之处。这些并非随机错误，而是反映了 LLM 在处理流式可用性数据方面存在的结构性缺陷。

六种系统误差模式

过时信息。模型会错误地将一些实际上已经下架的影片报告为仍在流媒体平台上播放。其原因在于结构性问题：娱乐媒体会大量报道新上架的影片，但很少跟进数周或数月后悄然下架的影片。训练数据集严重偏向于此类报道，因此模型会将过时的正面信息误判为当前有效。这是目前观察到的最普遍的错误模式。

附加服务和捆绑包混淆。一些平台经常将通过付费附加频道（例如 Prime Video 上的 Starz 或 Paramount+）提供的影片视为其包含在 Prime Video 基础订阅服务中的一部分。用户会看到影片“正在 Prime Video 上播放”，但实际上，观看这些影片需要单独订阅 Prime Video 内的 Starz 或 Paramount+ 附加服务，从而造成现有订阅已包含这些影片的假象。

长尾服务缺口。像 Tubi、Pluto TV、Fawesome、Hoopla 和 Kanopy 这样的免费和广告支持型服务经常被忽略，即使它们是特定影片的有效来源。

SVoD/TVoD混淆。有些服务模式会将某个服务列为订阅（SVoD）选项，而实际上该服务仅提供租赁或购买，从而误导用户，让他们对现有订阅的实际内容产生误解。

TVoD盲点。这两种模型几乎完全忽略了Apple TV和亚马逊等服务中的交易型视频点播（租赁/购买）选项，这影响了测试的大多数影片。

标题消歧义失败。当一个标题存在多个版本时（例如《海贼王》，它既有动画系列，也有Netflix真人版改编作品），模型会将不同版本的可用性混淆在一起。