文章标题

作为一家人工智能研究组织，OpenAI创建出了先进的语言模型，包括GPT-3和GPT-4。这些模型会使用大量公开可用的数据进行训练，以提高语言生成和理解能力。OpenAI最近因其使用此类数据的方法而陷入了法律纠纷之中。

5家加拿大的主流新闻媒体公司，即托尔斯塔（Torstar）、Postmedia、环球邮报（The Globe and Mail）、加拿大新闻社（The Canadian Press）以及加拿大广播公司（CBC/Radio）起诉OpenAI涉嫌在未获得许可的情况下使用了其受版权保护的文章和内容来训练自己的人工智能（AI）模型。这些原告抱怨OpenAI在网络上抓取公开可用的材料以改进其机器学习技术的做法构成了对它们知识产权的侵犯。

这样的措辞旨在建立起“OpenAI将其内容用于商业目的并违反了版权法律”的前提，因为其从未进行过补偿或寻求过来自媒体机构的任何同意。这些公司声称，如果他们要求对方为每篇遭到滥用的文章赔偿2万加元（约合1.47万美元）的话，整个诉讼的价值可能会扩大到数十亿加元。

OpenAI的辩护：合理利用与公开使用数据

据报道，尽管OpenAI尚未深入研究过加拿大诉讼的细节，但仍坚称其使用的方法属于加拿大版权法中所定义的“合理利用”。上述条款允许人们根据特定的标准在未获得许可的情况下使用受版权保护的作品。OpenAI还表示，这是一个主要使用公开可用资源训练出来的模型，并且符合合理利用的原则。根据OpenAI的说法，即使没有向那些受人尊敬的新闻机构提供补偿，这种使用公共数据的方法也是有利于创新的，并且可以让创作者从中受益。

这起诉讼与另一起在美国出现的法律纠纷类似，《纽约时报》此前曾向OpenAI及其合作伙伴微软（Microsoft）提出了诉讼，指控后者侵犯了版权。在该案中，两家公司都否认了这些指控，预计被告在本案中也将提供非常相似的辩护意见。

加拿大法律下的合理利用条款

加拿大《版权法》第29条对合理利用作出了规定。出于某些目的，未经授权使用受版权保护的作品不会构成任何侵权。这些目的包括研究、个人学习、教育、模仿、讽刺、批评、评论和新闻报道。

如果使用属于这些目的之一，那么随后就要通过使用加拿大最高法院在CCH Canadian Ltd.诉Law Society of Upper Canada一案中所提出的“六因素测试”来确定其中的合理性。最高法院规定的6个因素是目的、特征、数量、性质、效果和利用的替代方案。如有必要，法院可以依靠其他的因素来确定这种利用的合理性。所有这些因素必须同时进行评判，而不是孤立地评估。

合理利用的目的必须通过客观评估用户使用受版权保护作品的最终动机或意图来确定。如果作品的多个副本开始进入流通状态，那么这种利用的特征往往就会变得不合理。已使用的作品数量主要体现在所使用作品的比例上。作品的性质是由出版的意图推断出来的。在确定利用的效果时需要检查复制的作品是否有可能与原始作品构成竞争关系。最后，还可检查用户是否有其他无版权或开放许可的作品作为可用的替代方案，从而确定这种利用的合理性。

加拿大法律下的合理利用概念与美国的合理使用概念非常相似。在Campbell诉Acuff-Rose Music，Inc.这一标志性案件中，美国最高法院认为，如果使用的目的和特征具有转换性的意图，那么其将属于合理使用。

涉及违反服务条款的指控

除了涉及版权侵权的指控以外，加拿大的媒体企业还提出了另外两项指控。他们指责OpenAI规避了新闻机构的反抓取系统，该系统旨在防止未获得授权的机器人和网络爬虫访问他们的网站。原告声称OpenAI无视服务条款，而上述条款将对新闻信息的访问限制为“个人、非商业用途”。这些新闻公司表示，通过抓取他们的内容，OpenAI在未得到他们许可的情况下将其用于了商业目的。

法律审查：抓取、版权与合理利用

抓取新闻内容是否构成针对版权的“复制”，以及这是否构成了合理利用，是许多法律争端的症结所在。根据加拿大和美国的版权法律，在合理使用或合理利用的例外情况下，允许人们在未经授权的情况下有限地使用受保护的作品，但要充分考虑到上文所提到的各种因素。

OpenAI认为，“抓取新闻来训练其模型并不意味着直接复制了相关材料”，而是将其从媒体中抽取出来。这种抽取过程并不构成任何侵权。随后，他们指出，他们并没有复制用来训练的内容，而是学习了那些不受版权保护的统计模式。

非营利组织Creative Commons对OpenAI的立场进行了分析，这类似于谷歌（Google）认为其开展图书数字化的工作只是为了简化检索流程。这两家公司都是将原始材料转化为了新的形式，既不与原始内容构成竞争关系，也不会降低其价值。然而，媒体公司则反驳说，OpenAI将他们的原创作品用于了商业目的，没有提供任何补偿，并质疑这种做法是否是合理的。

许可和解决争端的可能性

就在《纽约时报》提起诉讼之后，OpenAI采取了两项预防措施，以尽量减少潜在的损失。首先，它表示会尊重任何选择不将其内容作为培训数据提供的新闻机构的决定。其次，它还开始与新闻机构签订协议，以获得将其内容用于培训目的的许可。这些措施是OpenAI在诉讼发生时试图保持中间立场的信号。

然而，从AI开发和版权法的未来来看，此类诉讼都是非常重要的。因此，如果OpenAI辩称抓取数据符合版权的合理利用条款并取得成功的话，那么它实际上会让许可交易市场变得更小，因为这将创造出一个法律上的先例，即让AI公司有权使用公开可用的数据而不用向内容创建者支付报酬。相反，如果裁决对媒体公司有利的话，它可能会带来对AI开发工作的进一步限制，并迫使OpenAI签订更多的许可协议。

结语：对AI和版权带来的影响

随着案件的展开，其对AI公司和媒体组织以及数字时代的版权所带来的影响将是深远的。如果法院支持了媒体公司，它将塑造出AI模型训练和数据使用监管的未来。相反，一项对OpenAI有利的裁决将会刺激其他科技公司效仿，依靠合理使用或合理利用条款来避免支付许可费。

法律斗争仍在持续，AI技术的命运与版权法息息相关。（编译自www.mondaq.com）

翻译：刘鹏　校对：王丹

　　免责声明：本网转载或编译文章原文均来自网络，不代表本网观点或证实其内容的真实性。若有来源标注错误或涉及文章版权问题，请与本网联系，本网将及时更正、删除，谢谢。

月

新闻热搜词

文章标题

快速查询：

常用法规：

扫描二维码即可关注微信订阅号

关于我们|本网声明|网站地图