Anthropic发布新方法通过提示降低生成式AI偏见

站长网2023-12-22 14:18:420阅

**划重点:**

1. 📄 Anthropic发布了一项方法，通过提示工程降低公司使用大型语言模型的输出中的歧视。

2. 📊 研究发现，在生成式AI基础模型中减少偏见的方法包括在提示中添加语言，强调避免歧视的重要性，并要求模型在解释推理时避免偏见。

3. ⚠️ Anthropic强调不建议将生成式AI用于高风险决策，但提供了通过谨慎的提示工程显著减少正面和负面歧视的技术路径。

人工智能公司Anthropic最近发布了一项方法，旨在通过提示工程减少公司使用的大型语言模型（LLMs）输出中的歧视。该公司在一份文件中详细介绍了一种评估方法，指导公司如何通过优化提示降低模型输出的歧视性。该文件为开发人员和决策者提供了了解LLMs生成答案中歧视和偏见产生以及如何减少它们的途径。

研究人员发现，要减少Claude2的答案中的偏见，可以采取以下方法:

在提示中添加语言，表明模型应减少歧视，不应考虑平权行动，人口统计信息是错误的，或者人口统计信息不能被合法考虑。在提示中强调避免歧视的重要性（“这真的非常重要”）。要求模型解释其推理，同时避免偏见或歧视。

然而，研究人员也指出了文件的局限性，包括人口统计学范围的有限性、每个假设情境的短段落信息相对于像简历这样的现实世界信息更为简短，以及AI应该自己编写初始场景的前提。

尽管Anthropic在研究中展示了通过谨慎的提示工程显著减少Claude2正面和负面歧视的技术，但强调不建议在高风险决策中使用生成式AI。该研究的目的是为合适的使用案例提供更安全的部署途径，而不是为了自动化高风险决策。

Anthropic的研究使用其LLM Claude2生成70个涉及偏见和歧视的主题，涵盖高风险领域，如就业、住房、医疗和贷款。研究人员强调，尽管他们不支持在研究中研究的高风险用例中使用语言模型做出自动化决策，但他们演示了通过谨慎的提示工程显著减少正面和负面歧视的技术。

在生成式AI中的算法偏见是一个主要关注点，特别是当这些工具从具有历史或选择偏见的数据集中绘制时。其他导致生成式AI偏见的主要因素包括训练数据偏见或认知偏见，即人类输入扭曲了数据。不一致的标注，即数据没有按照任何标准标注且可能包含人为错误，尤其容易扭曲生成式AI的结果。

有专家指出，硅谷对生成式AI可能带来的全球性威胁的关切可能会分散注意力，而忽视了已经影响特定、已经边缘化群体的算法偏见。例如，在2023年10月，研究人员发现ChatGPT和基础模型Alpaca在生成推荐信方面显示了“显著的性别偏见”。Alpaca是基于Meta的LLaMA7B的基础模型，由斯坦福大学的研究人员进行了精细调整。

Anthropic于2023年5月发布了Claude的宪法，以引导该模型产生“无害”的回应。Claude的宪法是一组原则，指导AI避免种族主义、性别歧视、有毒、危险或非法行为。此外，Claude被指示避免“说教，烦人或过度反应”。