据国外媒体报道,ChatGPT开发商OpenAI最近表示,在开发ChatGPT等人工智能工具时,使用的是受版权保护的信息。如果没有版权保护,这些工具将“不可能”实现价值提升。该声明还表示,OpenAI在提交给英国上议院通信和数字专责委员会关于大型语言模型调查文件中做了具体陈述。
纽约时报提出版权诉讼,要求OpenAI删除所有GPT实例
ChatGPT和图像生成器DALL-E等人工智能模型从培训课程中获得能力,部分训练课程是在未经版权所有者许可的情况下,从公共互联网上抓取的大量内容而提供服务。OpenAI认为,在其具体应用场景下,一些培训内容是授权的。这种免费抓取的方式是机器学习领域长期以来的一种学术研究常规做法,但由于深度学习和人工智能模型在最近开始走向商业化征程,免费抓取的做法受到了严格的审查。
OpenAI在上议院提交的文件中写道:“因为今天的版权几乎涵盖了所有人类表达——包括博客文章、照片、论坛帖子、软件代码片段和政府文件——如果不使用受版权保护的材料,就不可能训练出今天这样前沿的人工智能模型。”
此外,OpenAI还写道,将训练数据限制在“一个多世纪前创作的”公共领域的书籍和图纸上,将无法提供“满足当今公民需求”的人工智能系统。
上个月,《纽约时报》对OpenAI和OpenAI的重要投资者微软提起诉讼,称其在各自的产品中非法使用了《纽约时报》的内容。OpenAI周一在其网站上回应了这起诉讼,称这起诉讼缺乏法律依据,并重申了对新闻业的支持以及与新闻机构的合作关系。
OpenAI的说法是,创建人工智能模型合理合法,法律规定在特定情况下,允许在未经所有者许可的情况下有限地使用受版权保护的内容。该公司声称,版权法并不禁止使用此类材料训练人工智能模型。
OpenAI在周一的博客文章中写道:“使用公开的互联网材料来训练人工智能模型是合理的使用,这得到了长期以来被广泛接受的先例的支持。”“我们认为这一原则对创造者来说是公平的,对创新者来说是必要的,对提升人工智能的竞争力至关重要。”
OpenAI反驳了版权诉讼说法,称每个ChatGPT响应都是衍生作品
这并不是OpenAI第一次声称其人工智能训练数据的合理使用。今年8月,我们在媒体报道中发现一个类似的情况,OpenAI在回应喜剧演员莎拉·西尔弗曼(Sarah Silverman)的版权诉讼时,为其使用公开可用材料辩护,称其为合理使用。
OpenAI声称,该诉讼的作者“误解了版权的范围,没有考虑到限制和例外(包括合理使用),这些限制和例外为人工智能前沿的大型语言模型等创新留下了适当的空间。”
原文链接:
https://arstechnica.com/information-technology/2024/01/openai-says-its-impossible-to-create-useful-ai-models-without-copyrighted-material/