这些文本来自第三方数据集

pappu636 · Post by **pappu636** » Mon Jan 20, 2025 8:25 am

这里对于后面的法律分析重要的是，像 OpenAI 这样的模型训练师必须访问大量文本，那么这些数据从何而来？他们实际上发布了GPT-3 的一些来源，但没有发布 GPT-4 的来源。GPT-3 主要使用来自网络的文本进行训练（占所有权重的 85%）。特别是Common Crawl，这是一个大型在线网络爬取文本数据集；OpenWebText2，其中包括来自 Reddit 讨论的文本；以及维基百科。另外 15% 来自两个名为 Books1 和 Books2 的图书数据集。每个人似乎都同意 Books1 是古腾堡计划收集的公共领域作品的数据集，它占总训练数据权重的 8%，剩下的 7% 来自 Books2，我们不知道里面有什么，也不知道它来自哪里。Books2 是所有受版权保护的商业图书可能存在的地方。

那么这是否侵犯了版权？我将只讨论与版权相关的前三项指控。

直接侵犯版权

原告辩称，OpenAI 在训练 ChatGPT 时使用了这两位作者的书籍，因此他们必须复制这些书籍。为了证明确实存在抄袭行为，他们提供了证据，证明当被要求提供原告的三本书（即《世界尽头的小屋》、《看待胖女孩的 13 种方式》和《兔子》）的摘要时，ChatGPT 能够提供一些摘要，尽管他们承认在某些情况下“摘要中有一些细节错误”。

那么 OpenAI 是否复制了这些作品？基于以上信息，答案很可能是否定的。这些书籍的来源只有一个，那就是 Books2。网上有各种猜测，说这是哪个数据集，原告认为这可能是一个由种子网站上非法复制的书籍组成的书籍语料库，被称为“影子图书馆”。起诉书中没有提供这一说法的证据。但也许最重要的是，这些书籍可能不是 OpenAI 复制的，它们可能是由第三方复制的，毕竟 OpenAI 已经完全使用第三方数据集来抓取网络内容，所以他们自己实际上并没有复制任何书籍。他们可能仍需承担替代责任，但这是我们稍后将讨论的另一个问题。

但无论神秘的 Books2 的身份和来源如何，该案件完全依赖于这样一个假设：原告的书籍确实存在于该数据集中，但这实际上是一个巨大的假设。ChatGPT 可以提供一些书籍的摘要，但这并不能证明这些书籍确实在训练数据中，更有可能的是，这些摘要来自数据集的最大部分，即网络内容，特别是引文、片段、宣传数据和其他在线来源。事实上，《世界尽头的小屋》在维基百科上有详细的情节摘要，我们知道所有训练权重中有 3% 来自在线百科全书。我还能够找到所有三本涉嫌侵权书籍的一页又一页的在线摘要和条目。ChatGPT 可以很容易地知道这些书，而无需将它们实际包含在训练数据中。

这一事实本身就足以让人怀疑直接侵权的指控，但我们现在假设这些书确实在 Books2 或其他未公开的数据集中找到。原告辩称，“原告从未授权 OpenAI 复制他们的书籍、制作衍生作品、公开展示副本（或衍生作品）或分发副本（或衍生作品）。”

OpenAI 没有抄袭这些书籍，他们显然没有公开展示作品的副本，也没有分发作品的副本。那么这些作品有衍生品吗？这与其他诉讼类似，原告似乎在这样的理论下工作：如果训练数据中存在作品，那么产生的所有输出都来自原作。这个论点毫无意义，我们有数十亿个代币，根据这个理论，任何在 Reddit 上发帖的人都可以声称衍生品侵犯了版权。

此外，ChatGPT 并没有制作任何意义上的可操作的衍生品，他们最多只是制作一份摘要，而这并不是衍生品，否则全世界数百万的学生都会在指定的读书报告中制作衍生品，从而侵犯版权。

间接侵犯版权

原告可能预料到被告会辩称他们从未复制过这些书籍，而是由法国手机数据第三方复制的，因此原告认为 OpenAI 控制着这些输出，因此从他们的版权作品中获得了经济利益。如上所述，如果他们没有复制这些作品，他们仍可能承担间接责任。

如果我们考虑到这些书籍的副本确实可以在数据集中找到，那么这可能是一个有趣的论点，因此即使 OpenAI 自己没有复制作品，他们仍可能因使用了他人的副本而承担二次侵权的责任。例如，海盗湾不复制作品，但他们仍可能协助其他人侵犯版权。

我发现这可能是所有指控中最有力的，尽管投诉并没有真正涉及这一点。然而，这一切都基于上述假设，即书籍确实在数据集中。如果是这样，那么 OpenAI 可能正在间接侵权。但如果是这样，我希望 OpenAI 能够提出令人信服的合理使用辩护。虽然在沃霍尔事件之后，美国的合理使用法似乎暂时悬而未决，但似乎一致认为这是一个非常依赖事实的决定。