借助DeepL Translator 翻译的GPT-4博文

GPT-4
我们已经创建了GPT-4,这是OpenAI在扩大深度学习方面的最新里程碑。GPT-4是一个大型的多模态模型(接受图像和文本输入,发出文本输出),虽然在许多现实世界的场景中能力不如人类,但在各种专业和学术基准上表现出人类水平的表现。例如,它通过了模拟的律师考试,分数在应试者的前10%左右;相比之下,GPT-3.5的分数则在后10%左右。我们花了6个月的时间,利用我们的对抗性测试项目以及ChatGPT的经验,反复调整GPT-4,从而在事实性、可引导性和拒绝超出护栏方面取得了我们有史以来最好的结果(尽管远非完美)。

在过去的两年里,我们重建了整个深度学习堆栈,并与Azure一起,为我们的工作负荷从头开始共同设计了一台超级计算机。一年前,我们训练了GPT-3.5,作为该系统的第一次 “试运行”。我们发现并修复了一些错误,并改进了我们的理论基础。因此,我们的GPT-4训练运行(至少对我们来说是如此!)空前稳定,成为我们第一个训练性能能够提前准确预测的大型模型。随着我们继续专注于可靠的扩展,我们的目标是磨练我们的方法,以帮助我们越来越提前地预测和准备未来的能力–我们认为这对安全至关重要。

我们正在通过ChatGPT和API发布GPT-4的文本输入功能(有一个等待名单)。为了准备更广泛地提供图像输入功能,我们正在与一个合作伙伴紧密合作,以开始。我们也正在开源OpenAI Evals,这是我们自动评估人工智能模型性能的框架,允许任何人报告我们模型中的缺点,以帮助指导进一步的改进。

Capabilities 能力

在闲聊中,GPT-3.5和GPT-4之间的区别可能是微妙的。当任务的复杂性达到足够的阈值时,差异就会显现出来–GPT-4比GPT-3.5更可靠,更有创造性,能够处理更细微的指令。

为了了解这两种模型之间的差异,我们在各种基准上进行了测试,包括模拟最初为人类设计的考试。我们通过使用最新的公开测试(就奥数和AP自由回答问题而言)或购买2022-2023年版的练习考试来进行。我们没有为这些考试做专门的培训。考试中的少数问题是模型在训练中看到的,但我们认为结果是有代表性的–详情请见我们的技术报告。

我们还在为机器学习模型设计的传统基准上评估了GPT-4。GPT-4的性能大大超过了现有的大型语言模型,与大多数最先进的(SOTA)模型并驾齐驱,这些模型可能包括针对基准的制作或额外的训练协议。

许多现有的ML基准是用英语写的。为了初步了解其他语言的能力,我们使用Azure Translate(见附录)将MMLU基准–一套涵盖57个主题的14000个多选题–翻译成了各种语言。在测试的26种语言中的24种语言中,GPT-4的表现优于GPT-3.5和其他LLM(Chinchilla,PaLM)的英语表现,包括低资源语言,如拉脱维亚语、威尔士语和斯瓦希里语。

我们也一直在内部使用GPT-4,对支持、销售、内容审核和编程等功能有很大影响。我们也正在使用它来协助人类评估人工智能的产出,开始了我们调整战略的第二阶段。

GPT-4可以接受文本和图像的提示,这与纯文本设置平行,让用户指定任何视觉或语言任务。具体来说,它可以生成文本输出(自然语言、代码等),给定的输入包括穿插的文本和图像。在一系列的领域中,包括带有文字和照片的文件、图表或屏幕截图,GPT-4表现出与纯文本输入类似的能力。此外,它还可以使用为纯文本语言模型开发的测试时间技术,包括少数几个镜头和思维链提示。图像输入仍然是一个研究预览,没有公开提供。

我们通过对一套狭窄的标准学术视觉基准进行评估来预览GPT-4的性能。然而,这些数字并不完全代表它的能力范围,因为我们正在不断发现该模型能够处理的新的和令人兴奋的任务。我们计划很快发布进一步的分析和评估数字,以及对测试时间技术效果的彻底调查。

操纵性

我们一直在努力实现我们关于定义人工智能行为的帖子中概述的计划的各个方面,包括可引导性。与经典的ChatGPT个性的固定言语、语气和风格不同,开发者(以及很快ChatGPT用户)现在可以通过在 “系统 “消息中描述这些方向来规定他们的AI的风格和任务。系统消息允许API用户在一定范围内大幅定制他们的用户体验。我们将继续在这里进行改进(特别是知道系统消息是 “越狱 “当前模式的最简单方法,也就是说,对界限的遵守并不完美),但我们鼓励你尝试并让我们知道你的想法。

限制条件

尽管有这样的能力,GPT-4也有与早期GPT模型类似的局限性。最重要的是,它仍然不是完全可靠的(它对事实产生 “幻觉”,并出现推理错误)。在使用语言模型的输出时,特别是在高风险的情况下,应该非常小心,准确的协议(如人类审查,用额外的背景接地,或完全避免高风险的使用)与特定的使用案例的需求相匹配。

虽然仍然是一个真实的问题,但GPT-4相对于以前的模型(这些模型本身在每次迭代中都有改进),大大减少了幻觉。在我们的内部对抗性事实性评估中,GPT-4的得分比我们最新的GPT-3.5高40%。

我们在TruthfulQA等外部基准上取得了进展,该基准测试了模型从对抗性选择的不正确陈述中分离事实的能力。这些问题与在统计学上具有吸引力的事实错误的答案相搭配。

GPT-4基础模型在这一任务上只比GPT-3.5略胜一筹;然而,在经过RLHF后期训练后(应用我们在GPT-3.5上使用的相同过程),却有很大差距。检查下面的一些例子,GPT-4抵制选择普通的说法(你不能教一只老狗新的技巧),然而它仍然可能错过微妙的细节(猫王不是一个演员的儿子)。

该模型在其输出中可能会有各种偏见–我们在这些方面已经取得了进展,但仍有更多工作要做。根据我们最近的博文,我们的目标是使我们建立的人工智能系统具有合理的默认行为,以反映广泛的用户价值观,允许这些系统在广泛的范围内被定制,并获得公众对这些范围的意见。

GPT-4通常缺乏对其绝大部分数据截止后(2021年9月)发生的事件的了解,也不会从其经验中学习。它有时会犯一些简单的推理错误,这似乎与它在这么多领域的能力不相符,或者过于轻信用户的明显虚假陈述。有时它也会像人类一样在困难的问题上失败,比如在它产生的代码中引入安全漏洞。

GPT-4在预测时也会自信地出错,在有可能出错的时候不注意反复检查工作。有趣的是,基础的预训练模型是高度校准的(它对一个答案的预测信心一般与正确的概率相匹配)。然而,通过我们目前的后训练过程,校准程度降低了。

风险和缓解措施

我们一直在对GPT-4进行迭代,以使其从培训开始就更加安全和一致,所做的努力包括预培训数据的选择和过滤、评估和专家参与、模型安全改进以及监测和执行。

GPT-4与以前的模型有类似的风险,如产生有害的建议、错误的代码或不准确的信息。然而,GPT-4的额外能力导致了新的风险面。为了了解这些风险的程度,我们聘请了50多位来自人工智能对接风险、网络安全、生物风险、信任和安全以及国际安全等领域的专家对该模型进行对抗性测试。他们的发现特别使我们能够测试模型在高风险领域的行为,这些领域需要专业知识来评估。来自这些专家的反馈和数据为我们缓解和改进模型提供了依据;例如,我们已经收集了额外的数据,以提高GPT-4拒绝关于如何合成危险化学品请求的能力。

GPT-4在RLHF训练中加入了一个额外的安全奖励信号,通过训练模型来拒绝对此类内容的请求,从而减少有害的输出(根据我们的使用指南定义)。奖励是由GPT-4的零点分类器提供的,它判断安全边界和安全相关提示的完成方式。为了防止模型拒绝有效的请求,我们从不同的来源(例如,标记的生产数据、人类红队、模型生成的提示)收集不同的数据集,并在允许和不允许的类别上应用安全奖励信号(有一个正值或负值)。

与GPT-3.5相比,我们的缓解措施大大改善了GPT-4的许多安全性能。与GPT-3.5相比,我们将该模型对不允许内容的请求的响应倾向降低了82%,而GPT-4对敏感请求(如医疗建议和自我伤害)的响应符合我们的政策的频率提高了29%。

总的来说,我们的模型级干预措施增加了诱发不良行为的难度,但这样做仍然是可能的。此外,仍然存在 “越狱 “的情况,以产生违反我们使用指南的内容。随着人工智能系统的 “每个令牌的风险 “的增加,在这些干预措施中实现极高的可靠性将变得至关重要;目前,重要的是用部署时间的安全技术来补充这些限制,如监测滥用。

GPT-4和后续模型有可能以有益和有害的方式大大影响社会。我们正在与外部研究人员合作,以改善我们理解和评估潜在影响的方式,以及建立对未来系统可能出现的危险能力的评估。我们将很快分享我们对GPT-4和其他人工智能系统的潜在社会和经济影响的更多思考。

培训过程

像以前的GPT模型一样,GPT-4基础模型被训练为预测文档中的下一个词,并使用公开的数据(如互联网数据)以及我们授权的数据进行训练。这些数据是一个网络规模的语料库,包括数学问题的正确和错误的解决方案,薄弱和强大的推理,自相矛盾和一致的声明,以及大量不同的意识形态和想法。

因此,当被提示有一个问题时,基础模型可以以各种各样的方式做出反应,而这些反应可能与用户的意图相去甚远。为了使其与用户的意图保持一致,我们使用人类反馈的强化学习(RLHF)对模型的行为进行微调。

请注意,模型的能力似乎主要来自于预训练过程–RLHF并不能提高考试成绩(如果不积极努力,它实际上会降低成绩)。但是对模型的引导来自于训练后的过程–基础模型需要及时的工程,甚至知道它应该回答问题。

可预测的缩放比例

GPT-4项目的一大重点是建立一个可预测扩展的深度学习栈。主要原因是,对于像GPT-4这样的大型训练运行,进行广泛的特定模型调整是不可行的。我们开发了基础设施和优化,在多种规模下都有非常可预测的行为。为了验证这种可扩展性,我们提前准确地预测了GPT-4在我们内部代码库(不属于训练集)上的最终损失,方法是通过使用相同的方法训练的模型进行推断,但使用的计算量要少10000倍。

现在,我们可以准确地预测我们在训练过程中优化的指标(损失),我们开始开发方法来预测更多可解释的指标。例如,我们成功地预测了HumanEval数据集的一个子集的通过率,从计算量少1000倍的模型中推断出来。

有些能力仍然难以预测。例如,逆向缩放奖是一项竞赛,目的是找到一个随着模型计算量的增加而变得更糟的指标,而事后忽略是获胜者之一。就像最近的另一个结果,GPT-4扭转了这一趋势。

我们相信,准确预测未来的机器学习能力是安全的一个重要部分,但相对于其潜在的影响,它并没有得到足够的重视(尽管我们已经被一些机构的努力所鼓舞)。我们正在扩大我们的努力,开发一些方法,为社会提供更好的指导,让人们了解对未来系统的期望,我们希望这成为该领域的一个共同目标。

我们正在开源OpenAI Evals,这是我们的软件框架,用于创建和运行评估GPT-4等模型的基准,同时逐个样本检查其性能。我们使用Evals来指导我们的模型的开发(包括识别缺点和防止倒退),我们的用户可以应用它来跟踪各个模型版本(现在将定期推出)和不断发展的产品集成的性能。例如,Stripe使用Evals来补充他们的人工评估,以衡量其GPT驱动的文档工具的准确性。

由于代码都是开源的,Evals支持编写新的类来实现自定义评估逻辑。然而,根据我们自己的经验,许多基准遵循一些 “模板 “中的一个,所以我们也包括了内部最有用的模板(包括一个 “模型分级评估 “的模板–我们发现GPT-4令人惊讶地能够检查自己的工作)。一般来说,建立一个新的评估的最有效方法是将这些模板中的一个实例化,并提供数据。我们很高兴看到其他人能用这些模板和Evals更普遍地建立什么。

我们希望Evals成为一个分享和众包基准的工具,最大限度地代表广泛的故障模式和困难任务。作为后续的例子,我们已经创建了一个逻辑谜题评估,其中包含GPT-4失败的十个提示。Evals也与实现现有的基准兼容;我们已经包括了几个实现学术基准的笔记本和一些整合CoQA(小的子集)的变化作为例子。

我们邀请大家使用Evals来测试我们的模型,并提交最有趣的例子。我们相信Evals将成为使用和建立在我们的模型之上的过程的一个组成部分,我们欢迎直接的贡献、问题和反馈。