《纽约时报》禁止人工智能公司使用其内容进行模型算法训练
据 Adweek 报道,纽约时报在 8 月初更新了其服务条款,禁止将其文章和图片用于人工智能训练。此举发生在科技公司继续通过像 ChatGPT 和 Google Bard 这样的 AI 语言应用获取数据的大规模未经授权抓取的情况下。
新的条款禁止未经明确书面许可使用时报的内容,包括文章、视频、图片和元数据,用于训练任何 AI 模型。在服务条款的第 2.1 节中,纽约时报称其内容仅供读者的「个人非商业使用」,非商业使用不包括「开发任何软件程序,包括但不限于训练机器学习或人工智能(AI)系统」。
在接下来的第 4.1 节中,条款规定,未经纽约时报的事先书面同意,任何人都不得「将内容用于开发任何软件程序,包括但不限于训练机器学习或人工智能(AI)系统。」
纽约时报还概述了违反限制规定的后果:「进行禁止使用服务的行为可能导致对用户及协助用户的人员的民事、刑事和/或行政处罚、罚款或制裁。」
尽管听起来很威胁,但限制性使用条款以前并没有阻止将整个互联网转化为机器学习数据集。目前所有大型可用的语言模型,包括 OpenAI 的 GPT-4、Anthropic 的 Claude 2、Meta 的 Llama 2 和 Google 的 PaLM 2,都是在从互联网抓取的大量材料的基础上进行训练的。通过一种称为无监督学习的过程,将 web 数据输入神经网络,使 AI 模型通过分析单词之间的关系获得语言的概念意义。
使用抓取的数据来训练 AI 模型的争议性,在美国法庭上尚未完全解决,已经导致至少一起指控 OpenAI 涉嫌剽窃的诉讼。上周,美联社和其他几家新闻机构发表了一封公开信,称「必须制定法律框架来保护驱动 AI 应用的内容」,其中提出了其他关切。
OpenAI 可能预期未来会面临持续的法律挑战,并已开始采取一些举措,可能是为了应对这些批评,OpenAI 最近宣布,网站运营商现在可以阻止其 GPTBot 网络爬虫抓取其网站。这导致一些网站和作者公开表示将阻止这个爬虫。
微软还在自己的条款和条件中添加了一些新的限制,禁止人们使用其人工智能产品「创建、训练或改进(直接或间接)任何其他人工智能服务」,同时禁止用户从其人工智能工具中抓取或以其他方式提取数据。
目前已经抓取的内容已经成为 GPT-4 的一部分,包括纽约时报的内容。也许我们要等到 GPT-5 才能看到 OpenAI 或其他 AI 供应商是否尊重内容所有者希望被排除在外的愿望。如果没有的话,可能会出现新的 AI 诉讼或法规。
- 0000
- 0000
- 0000
- 0001
- 0002