查看原文
其他

纽约时报诉OpenAI进展解读

牛予薇 清华大学智能法治研究院
2024-08-28

2023年12月27日,纽约时报公司向OpenAI及微软提起诉讼,指控被告未经许可使用《纽约时报》的数百万篇文章训练ChatGPT模型,侵害了纽约时报的版权,并构成不正当竞争,案件主要关注生成式人工智能对公开数据的再次利用及版权保护问题。


此前,在2023年11月OpenAI的首届开发者大会上,OpenAI宣布提供Copyright Shield(知识产权盾)机制,承担知识产权侵权可能导致的费用与责任,为客户的潜在侵权风险“买单”,即如果用户因 AI 生成内容造成“版权侵权”,被要求法律索赔,OpenAI 将介入并为客户辩护,还将全额报销过程中产生的费用。


1

本案基础信息


纽约时报提供了近两个世纪的优质独立新闻,有大量的记者为报道新闻花费了许多的时间与精力,纽约时报还雇佣了数百名编辑对新闻内容进行审核,为保证新闻的准确性、独立性与公正性投入了许多成本。如今绝大多数用户都是纯数字用户,通过线上访问来获取新闻内容。纽约时报诉称:如果时报及其他的新闻机构不能生产和保护独立的新闻报道,就会出现计算机或人工智能都无法填补的真空。如果时报和其他新闻机构不能控制新闻内容的使用,就难以将内容货币化,收入随之减少,也就难以为报道的产出进行高额投入。因此,第三方在出于商业目的使用内容之前必须获得许可,时报也通过版权清算中心(CCC)允许为教学、学术、其他非营利用途和有限的商业用途进行许可。


OpenAI已经从最初承诺无私奉献的企业成长为价值数十亿美元的盈利性企业,并通过由大语言模型支持的商业服务获得了高额营收。微软作为OpenAI唯一的云计算提供商,二者合作设计的由微软云计算平台Azure提供支持的超级计算系统被用于训练所有GPT-1之后的OpenAI GPT模型。微软还和OpenAI合作,于2023年2月在其搜索引擎发布了由GPT-4支持的生成式人工智能聊天机器人“Bing Chat”,与二者联合推出的插件“Browse with Bing”一起使用,使用户无需访问新闻机构自己的网站,直接在被告的网站和应用程序上就能查询到诸多报道的内容。



2

原告主张被告存在多项侵权行为


1、未经授权复制和使用时报的内容。


微软和OpenAI在训练大语言模型和运行相关AI产品时,以多种独立的方式创建和散布了包含时报内容的复制品。首先,在GPT模型训练期间未经授权复制了报刊作品,从其用于训练的数据集中可以看出许多内容来自时报的独创性内容,即多次复制或提取了时报作品。其次,至少通过两种方式未经授权公开展示时报作品,包括显示从模型本身检索到的时报作品的记忆副本或衍生作品,以及显示根据必应搜索索引中储存的副本生成的与时报作品基本相似的合成搜索结果。最后,与传统的搜索结果相比,基于大型语言模型构建的合成搜索应用程序,其合成输出显示的文章内容更具有表现力,并且未提供明显的超链接将用户引导至时报的网站。


根据版权法,作者能够控制作品的使用方式,也能够基于作品获得报酬,OpenAI在未经许可、未付报酬的情况下,使用纽约时报有价值的文章内容(知识产权)为侵权行为。与传统知识产权侵权不同,ChatGPT产出的内容并非传统意义上的转载或者演绎作品,而是一种快速和高效的自动化处理。被告的生成式AI产品基于大规模侵犯版权的商业模式获得盈利,通过使用微软的Bing搜索引擎,OpenAI对时报内容复制和分类,生成比传统搜索引擎更长更详细的回复,从而破坏了时报与其读者之间的关系,剥夺了纽约时报的收入。诉状通过图片的方式直接展现了GPT4生成的多个结果,其将未经授权的纽约时报作品逐字逐句复制并输出,这种方式将本应该属于纽约时报等版权人的流量转移到合成搜索应用之上,因为如果用户在这些AI产品上就能够阅读新闻或者找到其感兴趣的内容,即使搜索结果特别标注了来源于纽约时报,用户也不会再去访问内容的原始来源。


此外,时报已经在自身网站页面上标注了版权声明并且链接到服务条款,并认为被告应当获取了明确的提醒,并且在其获取内容、处理并将相关内容展示给用户时,特意删除了版权保管信息,掩盖侵权行为。


2、盗用商业推荐。


除了复制新闻内容,“Bing Chat”与“Browse with Bing”还会显示Wirecutter内容的大量摘录与转述,作为时报旗下的电子产品评测网站,Wirecutter的绝大部分收入来自关联推荐,记者花费大量时间精力研究和测试产品,来确保推荐最好的产品,并且在推荐产品时包含直接跳转到商家的链接,在交易完成后会收到来自商家的佣金。合成搜索结果再现了推荐内容,从而降低了Wirecutter文章浏览量及附加链接的流量,从而造成Wirecutter的收入损失,侵占了纽约时报的商业机会,构成了不公平竞争。


3、造成被误认为属于纽约时报的“幻觉”。


模型在未经许可复制转述时报内容的同时,还错误指出实际未发表的内容来自时报,这样的幻觉(错误)信息损害了时报的商业利益和竞争力。基于GPT系列的大型语言模型(LLMs)构建的合成搜索应用程序,包括Bing Chat和使用Bing浏览器浏览的ChatGPT,会在其搜索结果中展示大量的摘录或者转述内容,但结果中出现的与纽约时报相关的内容可能并非模型训练集中纽约时报的内容。这种现象在人工智能术语中被称为“幻觉”,更通俗的说就是错误信息。ChatGPT将“幻觉”定义为机器产生的看似真实的感官体验,但是却与现实世界的任何输入不符。GPT提供了伪造的文章和超链接,误导了用户他们所获得的信息来源于纽约时报,已经被纽约时报审查和发布。此行为产生了商标淡化效应,被告未经授权在低质量和不准确的文字上使用纽约时报的商标,在准确性、原创性和创作质量方面对纽约时报造成了损害,已经并将持续造成经济损失。



3

原告的指控内容与具体请求


纽约时报提出的指控内容主要可分为两方面。第一,版权侵权指控,包括直接侵权、间接/替代侵权及共同侵权,涉及储存、处理、复制以及直接输出、生成性输出等环节,并认为被告在输出内容中删除或更改了版权管理信息。微软主要通过提供超级计算基础设施,在构建训练数据集、储存处理和复制作品内容等方面直接协助OpenAI的相关侵权行为。此外,在终端用户作为直接侵权人对GPT输出内容承担责任的范围内,被告知道或有理由知道终端用户的直接侵权,应当对此承担责任。第二,不正当竞争与商标淡化指控。被告直接使用报道内容,产出的内容与时报的内容产生了竞争,广告和相关推荐收入方面也产生了不正当竞争。被告将不准确信息归属于纽约时报,对时报准确性、创作质量方面造成了声誉损害。


基于上述指控,《纽约时报》主要提出两方面的请求。第一,在金钱给付方面,虽未提出具体金额,但认为被告应当负担法定赔偿金、补偿性赔偿金、不当得利返还、律师费等金额。第二,被告应当停止侵权行为,并销毁掉所有使用《纽约时报》版权材料的聊天机器人模型和训练数据集。纽约时报请求法院以永久性禁令来限制和禁止被告的持续侵权行为。



4

OpenAI提出驳回此案的动议并做出回应


针对纽约时报提起的诉讼,OpenAI提交了驳回此案的动议,并在法律备忘录中从四方面对纽约时报的指控进行了回应。


1、纽约时报不能对三年前发生的行为提起诉讼。


纽约时报认为OpenAI侵权,是基于OpenAI创建和使用GPT-2和GPT-3的训练数据集的行为,包括:(1)构建WebText数据库且使用该数据集训练GPT-2;(2)构建WebText数据集的扩展版本WebText2;(3)使用WebText2和Common Crawlto训练GPT-3。但上述这些活动都发生在三年以前,因此任何基于它们的索赔都受到三年时效期的限制,相关的要求无效,法院应予以驳回,将重点放在仍处于时效期之内的行为。


2、纽约时报未在诉状中表明与终端用户侵权相关的共同侵权索赔。


在指控中,纽约时报试图基于共同侵权原则,让OpenAI对GPT产品的终端用户实施的直接侵权行为承担重大贡献和直接协助的责任。为提出这一请求,原告须指控:(1)第三方直接侵权;(2)被告对侵权行为知情;(3)被告对第三方的侵权行为起到了实质性的促进作用。法院不能仅仅根据产品的特征或使用来认定故意,请求认定共同专利侵权,原告必须声称被告实际知道具体的侵权行为或者采取行动故意避免获知侵权行为。


支持纽约时报主张的唯一指控是,OpenAI有理由知道终端用户的直接侵权,因为它对产品进行开发、测试并排除产品故障。但对“可能的侵权行为”的“普遍性认识”是不足的,诉状没有指控OpenAI应调查或有理由调查用户使用其平台复制《纽约时报》文章的行为,也未表明OpenAI有任何理由怀疑平台中存在着这种复制现象,OpenAI的条款已明确禁止此类服务。诉状也没有解释如果OpenAI对此类行为进行调查,应该如何评估输出内容是侵犯版权的行为,还是得到了版权所有者授权的创作行为。


3、原告提出的基于《千禧年数字版权法(DMCA)》的主张因多种原因而不成立。


纽约时报指出,被告在输出内容中删除或更改了版权管理信息,违反了《千禧年数字版权法》第1202条b款“禁止删除或修改版权管理信息”的规定。这一规定产生于互联网发展的早期,国会意识到未经授权的图像和其他作品的复制件可能会在网络空间中传播,因此通过了这一规定。但国会也通过“双重故意要求(double-scienter requirement)”,在自动过程导致删除版权管理信息这一意外结果发生时,限制该条款的应用。


纽约时报的指控存在下述四项问题:


(1)未明确说明版权管理信息。纽约时报的诉状未指出哪些作品中包含了什么样的版权管理信息。纽约时报声称在每页网站上都有版权声明和服务条款链接,但是部分文章实际并非如此,并且相关信息隐藏在页面底部的文本中,看起来并不与文章相关。


(2)未能说明被告删除了版权管理信息。首先,指控是基于三年多之前发生的建立训练数据集的行为,应受到时效限制。其次,纽约时报提出了三种可能删除模式,分别是在纽约时报网站抓取文章时删除版权管理信息、从Common Crawl之类的第三方数据库中删除版权管理信息以及在训练过程删除版权管理信息。但对第一种模式来说,纽约时报并没有具体指控OpenAI设计了省去版权管理信息的抓取过程,唯一一项指控与创建Web Text有关,但这一行为发生在距诉讼三年之前;对第二种模式来说,纽约时报未能说明它们的版权管理信息包含在任何第三方数据库中,更不必说OpenAI从数据集中清除版权管理信息;对于第三种模式来说,纽约时报未能具体说明OpenAI通过设计在训练过程中排除版权管理信息。此外,纽约时报未能证明所谓的版权管理信息的移除是如何“诱使、促成、促进或隐瞒”侵犯版权的。


(3)未证明模型输出被分发。纽约时报称,OpenAI未能将纽约时报的版权管理信息纳入模型输出,也违反了第1202(b)(3)条“禁止分发明知版权管理信息已被删除的作品”的规定。该指控不成立,因为没有具体说明OpenAI“分发”了任何模型输出内容。“分发”需要出售或转让所有权,而不仅仅是公开展示产出的成果,但纽约时报所指控的只是公开展示成果。OpenAI认为模型输出的内容并不是整篇纽约时报文章的批量拷贝,最多只是文章的摘录,或零散句子的集合体。如果在这样的摘录中缺少版权管理信息构成了对版权管理信息的删除,那么任何在书评中使用整块引用而没有包含有关图书出版商、条款和条件以及原始版权声明等信息的记者都将承担责任。为避免此类异常结果,法院已将第1202(b)(1)和(3)条的适用限制在大量或完全复制有关作品的情况下。因为纽约时报并未说明OpenAI复制了整篇文章,因此基于输出内容的主张是不成立的。即使不考虑这一点,纽约时报的主张也不能成立,例如纽约时报的诉状中呈现的内容,这些文章段落中不包含可以删除的版权管理信息。


(4)未主张版权管理损害。如果要起诉被告违反了DMCA,原告必须证明自身受到了损害。纽约时报声称的损害包括不能收到专营权收入以及GPT有可能分流读者的损失。但OpenAI认为诉状中的输出要么是使用原始的纽约时报文章本身生成的,要么是引用了纽约时报的名字,任何获取这些输出的用户都不会怀疑文本的来源,并且可以很容易地在《纽约时报》的网站上找到,ChatGPT也会在回复中推荐用户在原始网站阅读文章内容。


4、盗用索赔的主张被版权法所取代。


OpenAI认为,纽约时报根据普通法指控被告因盗用/挪用行为造成了不正当竞争,但该指控的基础已被《版权法》所取代。


《版权法》第301条规定了优先权。该条规定在版权法的范围内,美国版权法优先于联邦的其他法条,任何人都不得依任何州的普通法或成文法享有任何此类作品的任何此类权利或相当的权利。如果满足以下两个条件,优先权适用:(1) “这些作品是固定在有形的表现媒介上而且属于第102条和第103条规定的版权客体范围以内”(subject matter condition);(2)“所主张的权利等同于版权一般范围内的任何此类权利或相当的权利”(general scope condition)。


关于盗用有两种可能的观点。第一种观点认为OpenAI通过使用纽约时报的内容来训练生成与纽约时报相同类型的信息文本的模型,从而参与了不公平竞争(Text Claim)。第二种观点认为OpenAI损害了《纽约时报》,因为ChatGPT可以回应用户对Wirecutter推荐的查询(Recommendations Claim)。但这两种观点所主张的权利都与版权要求没有本质上的区别,因此版权索赔具有优先权,这两种主张都被《版权法》所取代,应被驳回。


基于上述理由,OpenAI认为法院应驳回纽约时报关于与终端用户的共同侵权指控、删除版权管理信息的指控以及盗用索赔的指控,并且驳回版权侵权中已过时效期的指控,但并未对商标淡化和声誉损害做出回应。



5

审理结果


到目前为止,本案还未审结。但另两起多名书籍作者针对OpenAI的集体诉讼案件与本案有一定相似性,并且美国加利福尼亚北区地方法院已部分批准了OpenAI在这两起案件中的驳回动议。


在这两起案件中,原告没有举证ChatGPT的输出包含了受版权保护的书籍的直接副本,也并未声称任何特定的产出与他们的作品本质上相似。因此,法院驳回了间接版权侵权索赔。但在本案中,纽约时报已通过截图的方式对比了ChatGPT输出内容与时报文章的相似性。此外,这两起案件中,原告也提出了基于DMCA的指控,但因并未证明版权管理信息的移除是如何“诱使、促成、促进或隐瞒”侵犯版权,未能证明OpenAI故意移除或更改版权管理信息(CMI),也未能证明OpenAI分发了受版权保护的作品或副本,未能根据1202(b)(1)条提出版权管理索赔,因此法院驳回了基于DMCA的诉讼请求。书籍作者还因为被告对于DMCA的违反行为提出了不公平竞争的索赔,但法院已经驳回了DMCA的索赔,因此这部分索赔也不成立。



撰稿 | 牛予薇,清华大学智能法治研究院实习生

选题&指导 | 刘云

编辑 | 王欣辰


注:本公众号原创文章的著作权均归属于清华大学智能法治研究院,需转载者请在本公众号后台留言或者发送申请至computational_law@tsinghua.edu.cn,申请需注明拟转载公众号/网站名称、主理者基本信息、拟转载的文章标题等基本信息。

继续滑动看下一个
清华大学智能法治研究院
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存