报告:60%的GPT-3.5输出存在抄袭问题
划重点:
1. 📊 Copyleaks报告显示,60%的OpenAI GPT-3.5输出存在抄袭,采用专有评分方法考虑了相同文本、微小修改和改写等因素。
2. 🕵️♂️ GPT-3.5在各学科中展示不同的相似性得分,计算机科学最高(100%),而戏剧、人文和英语语言相似性最低。
3. 🤯 抄袭问题引起OpenAI与纽约时报的法律纠纷,后者指责其AI系统广泛抄袭,OpenAI则称这是“偶发性记忆”的“罕见错误”。
据Copyleaks的一份报告显示,OpenAI的GPT-3.5模型输出中,有60%存在抄袭现象。Copyleaks采用了一种专有的评分方法,考虑了相同文本、微小修改和改写等因素,为每个输出分配了一个“相似性得分”。
GPT-3.5是OpenAI推出的一款先进的自然语言处理模型,但其输出的原创性却受到了质疑。根据最新的研究结果,GPT-3.5的输出中,45.7%的文本相同,27.4%经过微小修改,46.5%是改写的文本。相似性得分为0%表示完全原创,而100%则表示没有原创内容。
Copyleaks对GPT-3.5进行了多种测试,在26个学科中生成了约一千个输出,每个输出约400字。结果显示,计算机科学的相似性得分最高(100%),其次是物理学(92%)和心理学(88%)。相反,戏剧(0.9%)、人文学科(2.8%)和英语语言(5.4%)的相似性得分最低。
OpenAI发言人Lindsey Held表示:“我们的模型被设计和训练,学习概念以帮助它们解决新问题。我们已经采取措施限制偶发性记忆,并且我们的使用条款禁止有意使用我们的模型复述内容。”
抄袭问题不仅仅涉及整句整段的复制粘贴。纽约时报曾对OpenAI提起诉讼,称OpenAI的AI系统的“大规模复制”构成侵犯版权。OpenAI回应称“偶发性记忆”是一种“罕见的错误”,还指责纽约时报“操纵提示”。
尽管从作者到视觉艺术家等内容创作者一直在法庭上争论底层技术生成AI是基于其受版权保护的作品训练的,但目前法律更倾向于支持公司而非原告。纽约时报的案件可能带来一线希望,但目前仍在等待进展。
- 0001
- 0000
- 0000
- 0000
- 0001