文章标题
由于美国人工智能研究公司OpenAI未经授权收集全网信息训练其人工智能聊天机器人,权利人纷纷对其提起诉讼。这次是由作者提起的,他们称ChatGPT侵犯了他们小说的版权。
提交至旧金山联邦法院的拟议集体诉讼文件称,OpenAI“使用大量受版权保护的作品,未经同意,不标明引用,也没有补偿”。原告要求法院裁定该公司非法下载小说副本以训练其人工智能系统的行为侵犯了作家作品的版权,ChatGPT输出的答案构成侵权。
生成式人工智能公司因使用材料训练其人工智能系统而受到了法律挑战,法院在争论这种做法是否符合合理使用的条件。OpenAI正面临着一项拟议的集体诉讼,指控其人工智能技术分析数十亿行计算机代码以生成自己代码的做法符合版权侵权的条件。盖蒂图片社也在起诉人工智能艺术生成器Stable Diffusion侵犯版权。
作者提起的诉讼指出,ChatGPT在提示下生成了他们小说的摘要,这是侵权的证据。他们认为,这“只有在ChatGPT基于原告的版权作品进行训练的情况下才有可能输出摘要”。
诉讼称,由于人工智能系统不从材料中提取信息就无法运行,为ChatGPT提供动力的被称为大型语言模型的软件程序“本身就是侵权的衍生作品,未经原告许可,侵犯了他们在《版权法》下的专属权利”,衍生作品是基于预先存在的受版权保护的作品。
作者对OpenAI非法下载数十万本书籍来训练其人工智能系统的做法提出了异议。2018年6月,OpenAI透露,它向GPT-1——其大型语言模型的第一次迭代——提供了BookCorpus上的7000多本小说集,BookCorpus是由人工智能研究团队组建的。
诉讼称:“他们从一个名为Smashwords.com的网站上复制了这些书,该网站托管了未出版的小说,读者可以免费阅读。然而,这些小说基本上都有版权。它们被复制到BookCorpus数据集中,没有得到作者的同意、未标明引用,也没有补偿。”
诉讼文件指出,OpenAI的大型语言模型的后期版本是在更多受版权保护的作品上训练的。在2020年介绍GPT-3的论文中,该公司披露,其训练数据集的15%来自“2个基于互联网的书籍语料库”,它简单地称之为“Books1”和“Books2”。虽然它从未透露过这些数据集是什么作品,但作者声称它们来自“臭名昭著的影子图书馆网站”,如Library Genesis、Z-Library、Sci-Hub和Bibliotik。
作者的律师、曾代表程序员对OpenAI和微软提出集体诉讼的约瑟夫.萨维里(Joseph Saveri)写道:“这些公然违法的影子图书馆长期以来一直受到人工智能训练界的关注。例如,EleutherAI在2020年12月发布的名为‘Books3’的人工智能培训数据集有Bibliotik藏书的重现,包含近20万本书。”
OpenAI去年称,鉴于GPT-4等大规模模型的竞争状况和安全影响,它不再披露有关其数据集来源的信息。
这起代表美国数十万作者的全国性集体诉讼是由保罗.特伦布莱(Paul Tremblay)和莫娜.阿瓦德(Mona Awad)提起的。特伦布莱创作了小说《世界尽头的小屋(The Cabin at the End of the World)》,该小说被奈特.沙马兰(M.Night Shyamalan)改编为《拜访小屋(Knock at the Cabin)》。起诉书指控OpenAI直接侵犯版权、替代性侵犯版权、违反《数字千年版权法》、不当得利和失职以及其他侵权行为。
OpenAI和拥有该人工智能公司部分股份的微软公司没有立即作出回应。
在美国众议院司法委员会的法院、知识产权和互联网小组委员会于5月举行的审查人工智能和版权法交叉问题的听证会上,好莱坞的主要行为者主张立法禁止猖獗的、未经许可的收集作品以训练人工智能系统的行为。作曲家和作词家协会主席阿什利.欧文(Ashley Irwin)在听证会上称:“除非在法律解释和经济方面立即采取措施解决这些新出现的问题,否则生成式人工智能系统的迅速引入将被视为创造性职业的威胁。必须优先考虑政策和法规,以保护创作者的知识产权和版权,并保护多样化和充满活力的美国文化景观。”
欧文强调,应该要求人工智能公司在使用创作者的作品来训练人工智能程序时获得创作者的同意,并为随后创作的任何新作品按公平的市场价格向他们提供补偿,同时标注参考文献。(编译自www.hollywoodreporter.com)
翻译:罗先群 校对:王丹