本指南分享了从 GPT-4 等大型语言模型(有时称为 GPT 模型)中获得更好结果的策略和策略。这里描述的方法有时可以组合使用,以获得更大的效果。我们鼓励您进行实验,以找到最适合您的方法。

此处演示的一些示例目前仅适用于我们功能最强大的模型 gpt-4。通常,如果发现某个模型在某项任务中失败,并且有功能更强大的模型可用,则通常值得使用功能更强大的模型再次尝试。

您还可以浏览示例提示,这些提示展示了我们的模型的功能:

获得更好结果的6种策略

写出清晰的指令

这些模型无法读懂你的心思。如果输出太长,请要求简短回复。如果输出太简单,请要求专家级写作。如果您不喜欢该格式,请展示您希望看到的格式。模型越少猜测你想要什么,你就越有可能得到想要的结果。

策略:

  • 在查询中包含详细信息以获得更相关的答案
  • 要求模型采用角色
  • 使用分隔符清楚地指示输入的不同部分
  • 指定完成任务所需的步骤
  • 举例说明
  • 指定所需的输出长度

提供参考文本

语言模型可以自信地发明虚假答案,尤其是在被问及深奥的主题或引文和 URL 时。就像一张笔记可以帮助学生在考试中做得更好一样,为这些模型提供参考文本可以帮助以更少的捏造来回答。

策略:

  • 指示模型使用参考文本回答
  • 指示模型使用参考文本中的引文进行回答

将复杂的任务拆分为更简单的子任务

正如在软件工程中将复杂系统分解为一组模块化组件是很好的做法一样,提交给语言模型的任务也是如此。复杂任务往往比简单任务具有更高的错误率。此外,复杂任务通常可以重新定义为更简单任务的工作流,其中早期任务的输出用于构建后续任务的输入。

策略:

  • 使用意向分类来识别与用户查询最相关的说明
  • 对于需要很长对话的对话应用程序,请总结或筛选上一个对话
  • 分段总结长文档,递归构建完整摘要

给模型时间“思考”

如果被要求将 17 乘以 28,您可能不会立即知道,但仍然可以随着时间的推移而计算出来。同样,模型在试图立即回答时会犯更多的推理错误,而不是花时间找出答案。在回答之前询问“思维链”可以帮助模型更可靠地推理出正确答案。

策略:

  • 在匆忙得出结论之前,指示模型制定自己的解决方案
  • 使用内心独白或一系列查询来隐藏模型的推理过程
  • 询问模型在之前的传递中是否遗漏了任何内容

使用外部工具

通过向模型提供其他工具的输出来弥补模型的弱点。例如,文本检索系统(有时称为 RAG 或检索增强生成)可以告诉模型相关文档。像 OpenAI 的 Code Interpreter 这样的代码执行引擎可以帮助模型进行数学运算和运行代码。如果一项任务可以通过工具而不是语言模型更可靠或更高效地完成,请卸载它以充分利用两者。

策略:

  • 使用基于嵌入的搜索实现高效的知识检索
  • 使用代码执行来执行更准确的计算或调用外部 API
  • 授予模型对特定函数的访问权限

系统地测试更改

如果可以衡量性能,则更容易提高性能。在某些情况下,对提示的修改将在一些孤立的示例上获得更好的性能,但在一组更具代表性的示例上会导致整体性能变差。因此,为了确保更改对性能有净积极影响,可能需要定义一个全面的测试套件(也称为“评估”)。

策略:

  • 参考黄金标准答案评估模型输出

策略

上面列出的每个策略都可以用特定的策略进行实例化。这些策略旨在为尝试提供想法。但不是全部,您应该随意尝试此处未提及的其他创意。

策略:写出清晰的指令

策略:在查询中包含详细信息以获得更相关的答案

为了获得高度相关的响应,请确保请求提供任何重要的详细信息或上下文。否则,你就要让模型来猜测你的意思了。

更糟 更好
如何在Excel中添加数字? 如何在Excel中将一行美元金额相加?我想自动为整张行表执行此操作,所有总数都位于名为“Total”的列的右侧。
谁是总统? 2021年谁是墨西哥总统,选举多久举行一次?
编写代码来计算斐波那契数列。 编写一个 TypeScript 函数来有效地计算斐波那契数列。对代码进行宽松的注释,以解释每个部分的作用以及为什么这样编写。
总结会议记录。 用一个段落总结会议记录。然后写下演讲者的降价列表和他们的每个关键点。最后,列出演讲者建议的后续步骤或行动项目(如果有的话)。

策略:要求模型采用角色

系统消息可用于指定模型在其回复中使用的角色。

   
系统 当我请求帮助写东西时,你会回复一份文档,每个段落中至少包含一个笑话或俏皮的评论。
用户 给我的钢螺栓供应商写一封感谢信,感谢他们在短时间内按时交货。这使我们能够交付一个重要的订单。

策略:使用分隔符清楚地指示输入的不同部分

三引号、XML 标记、章节标题等分隔符可以帮助划分要区别对待的文本部分。

   
用户 用俳句总结用三引号分隔的文本。</br></br>“”“在此处插入文本”“”
   
系统 您将获得两篇关于同一主题的文章(用 XML 标记分隔)。首先总结一下每篇文章的论点。然后指出他们中的哪一个提出了更好的论点并解释原因。
用户 <article>在此处插入第一篇文章 </article></br></br><article>在此处插入第二篇文章 </article>
   
系统 您将获得论文摘要和建议的标题。论文标题应该让读者对论文的主题有一个很好的了解,但也应该引人注目。如果标题不符合这些标准,请建议 5 个替代方案。
用户 摘要:在此处插入摘要</br></br>标题:在此处插入标题

对于此类简单任务,使用分隔符可能不会对输出质量产生影响。但是,任务越复杂,消除任务细节的歧义就越重要。不要让模型确切地理解你对他们的要求。

策略:指定完成任务所需的步骤

某些任务最好指定为一系列步骤。显式写出这些步骤可以使模型更容易遵循它们。

   
系统 使用以下分步说明来响应用户输入。</br>第 1 步 - 用户将为您提供三引号中的文本。用一句话总结这段文字,前缀是“摘要:”。</br>第 2 步 - 将第 1 步中的摘要翻译成西班牙语,前缀为“翻译:”。
用户 “”“在此处插入文本”“”

策略:举例说明

提供适用于所有示例的一般说明通常比通过示例演示任务的所有排列更有效,但在某些情况下,提供示例可能更容易。例如,如果您打算让模型复制响应用户查询的特定样式,这很难显式描述。这被称为“小镜头”提示。

   
系统 以一致的风格回答。
用户 教我忍耐。
助理 雕刻最深谷的河流从一汪不起眼的泉水流出;最伟大的交响曲起源于一个音符;最复杂的挂毯始于一根孤独的线。
用户 教我关于海洋的知识。

策略:指定所需的输出长度

您可以要求模型生成具有给定目标长度的输出。目标输出长度可以根据单词、句子、段落、项目符号等的数量来指定。但请注意,指示模型生成特定数量的单词并不能高精度地工作。该模型可以更可靠地生成具有特定数量的段落或项目符号的输出。

   
用户 用三引号分隔的文本总结在大约 50 个单词中。</br></br>“”“在此处插入文本”“”
   
用户 总结 2 段中用三引号分隔的文本。</br></br>“”“在此处插入文本”“”
   
用户 总结用三引号分隔的文本,分为 3 个要点。</br></br>“”“在此处插入文本”“”

策略:提供参考文本

策略:指示模型使用参考文本进行回答

如果我们能够为模型提供与当前查询相关的可信信息,那么我们可以指示模型使用提供的信息来撰写其答案。

   
系统 使用提供的文章(用三引号分隔)来回答问题。如果在文章中找不到答案,请写“我找不到答案”。
用户 <插入文章,每篇文章用三引号分隔></br></br>问题:<在此处插入问题>在此处插入问题>

鉴于所有模型的上下文窗口都有限,我们需要某种方法来动态查找与所问问题相关的信息。嵌入可用于实现高效的知识检索。有关如何实现此策略的更多详细信息,请参阅策略“使用基于嵌入的搜索实现高效的知识检索”。

策略:指示模型使用参考文本中的引文来回答

如果输入已补充相关知识,则直接要求模型通过引用所提供文档中的段落来为其答案添加引文。请注意,输出中的引文可以通过提供的文档中的字符串匹配以编程方式进行验证。

   
系统 您将获得一份由三引号分隔的文件和一个问题。您的任务是仅使用提供的文档回答问题,并引用用于回答问题的文档的段落。如果文档不包含回答此问题所需的信息,则只需写:“信息不足”。如果提供了问题的答案,则必须用引文进行注释。使用以下格式引用相关段落 ({“citation”: …})。
用户 “”“<在此处插入文档>”“”</br></br>问题:<在此处插入问题>在此处插入问题>在此处插入文档>

策略:将复杂的任务拆分为更简单的子任务

策略:使用意向分类来识别与用户查询最相关的说明

对于需要大量独立指令集来处理不同情况的任务,首先对查询类型进行分类,然后使用该分类来确定需要哪些指令,这可能是有益的。这可以通过定义与处理给定类别中的任务相关的固定类别和硬编码指令来实现。此过程也可以递归应用,以将任务分解为一系列阶段。这种方法的优点是,每个查询将仅包含执行任务下一阶段所需的那些指令,与使用单个查询执行整个任务相比,这可能会导致更低的错误率。这也可以降低成本,因为较大的提示的运行成本更高(请参阅[定价信息(https://openai.com/pricing)])。

例如,假设对于客户服务应用程序,查询可以按如下方式进行有用的分类:

image

根据客户查询的分类,可以向模型提供一组更具体的指令,以便其处理后续步骤。例如,假设客户需要“故障排除”方面的帮助。

image

请注意,已指示模型发出特殊字符串,以指示会话状态何时更改。这使我们能够将系统变成一个状态机,其中状态决定了注入哪些指令。通过跟踪状态、在该状态下哪些指令是相关的,以及可以选择允许从该状态进行哪些状态转换,我们可以围绕用户体验设置护栏,而这些保护措施很难用不太结构化的方法实现。

策略:对于需要很长对话的对话应用程序,总结或筛选之前的对话

由于模型具有固定的上下文长度,因此用户和助手之间的对话(其中整个对话包含在上下文窗口中)不能无限期地继续。

此问题有多种解决方法,其中之一是总结对话中的前一轮。一旦输入的大小达到预定的阈值长度,这可能会触发一个查询,该查询汇总了部分会话,并且先前会话的摘要可以作为系统消息的一部分包含在内。或者,可以在整个对话中在后台异步总结先前的对话。

另一种解决方案是动态选择与当前查询最相关的对话的先前部分。请参阅策略“使用基于嵌入的搜索实现高效的知识检索”。

策略:分段总结长文档,递归构建完整摘要

由于模型具有固定的上下文长度,因此它们不能用于汇总长度超过上下文长度减去单个查询中生成的摘要长度的文本。

为了总结一个很长的文档,比如一本书,我们可以使用一系列查询来总结文档的每个部分。章节摘要可以连接和汇总,从而生成摘要的摘要。此过程可以递归方式进行,直到对整个文档进行汇总。如果有必要使用有关前面部分的信息来理解后面的部分,那么另一个有用的技巧是,在总结该点的内容时,包括书中任何给定点之前的文本的连续摘要。OpenAI 之前使用 GPT-3 变体的研究中已经研究了这种总结书籍程序的有效性。

策略:给模型“思考”的时间

策略:在匆忙得出结论之前,指示模型制定自己的解决方案

有时,当我们明确指示模型在得出结论之前从第一性原理进行推理时,我们会得到更好的结果。例如,假设我们想要一个模型来评估学生对数学问题的解决方案。最明显的方法是简单地询问模型学生的解决方案是否正确。

image

但学生的解法其实是不对的!我们可以通过提示模型首先生成自己的解决方案来让模型成功注意到这一点。

image

策略:使用内心独白或一系列查询来隐藏模型的推理过程

前面的策略表明,模型在回答特定问题之前详细推理问题有时很重要。对于某些应用程序,模型用于得出最终答案的推理过程不适合与用户共享。例如,在辅导应用中,我们可能希望鼓励学生自己找出答案,但模型对学生解决方案的推理过程可能会向学生揭示答案。

内心独白是一种可以用来缓解这种情况的策略。内心独白的思想是指示模型将输出中对用户隐藏的部分转换为结构化格式,以便轻松解析它们。然后,在将输出呈现给用户之前,将解析输出,并且仅显示部分输出。

image

或者,这可以通过一系列查询来实现,其中除最后一个查询外的所有查询都对最终用户隐藏其输出。

首先,我们可以要求模型自行解决问题。由于此初始查询不需要学生的解决方案,因此可以省略它。这提供了额外的优势,即模型的解决方案不会因学生尝试的解决方案而产生偏差。

   
用户 <插入问题陈述>插入问题陈述>

接下来,我们可以让模型使用所有可用信息来评估学生解决方案的正确性。

image

最后,我们可以让模型使用自己的分析来构建一个乐于助人的导师角色的回复。

image

策略:询问模型在之前的传递中是否遗漏了任何内容

假设我们正在使用一个模型来列出与特定问题相关的来源摘录。列出每个摘录后,模型需要确定是否应该开始编写另一个摘录,或者是否应该停止。如果源文档很大,模型通常会过早停止并且无法列出所有相关的摘录。在这种情况下,通常可以通过提示模型进行后续查询来查找它在以前的传递中遗漏的任何摘录,从而获得更好的性能。

image

策略:使用外部工具

策略:使用基于嵌入的搜索实现高效的知识检索

如果模型作为其输入的一部分提供,则可以利用外部信息源。这可以帮助模型生成更明智和最新的响应。例如,如果用户询问有关特定电影的问题,则将有关电影的高质量信息(例如演员、导演等)添加到模型的输入中可能很有用。嵌入可用于实现高效的知识检索,从而可以在运行时将相关信息动态添加到模型输入中。

文本嵌入是一种向量,可以测量文本字符串之间的相关性。相似或相关的字符串将比不相关的字符串更紧密地联系在一起。这一事实,加上快速向量搜索算法的存在,意味着嵌入可用于实现有效的知识检索。特别是,文本语料库可以拆分为多个块,每个块都可以嵌入和存储。然后,可以嵌入给定的查询,并执行向量搜索,以从语料库中查找与查询最相关的嵌入文本块(即在嵌入空间中最接近的文本块)。

示例实现可以在 OpenAI Cookbook 中找到。有关如何使用知识检索来最大程度地降低模型编造错误事实的可能性的示例,请参阅策略“指示模型使用检索到的知识来回答查询”。

策略:使用代码执行来执行更准确的计算或调用外部 API

不能依赖语言模型自行准确地执行算术或长计算。如果需要,可以指示模型编写和运行代码,而不是进行自己的计算。特别是,可以指示模型将要运行的代码放入指定格式,例如三重反引号。生成输出后,可以提取并运行代码。最后,如有必要,可以将代码执行引擎(即 Python 解释器)的输出作为下一个查询的模型输入。

   
系统 您可以通过将 Python 代码括在三个反引号中来编写和执行 Python 代码,例如 ‘'’code goes here’’‘。使用它来执行计算。
用户 求出以下多项式的所有实值根:3x5 - 5*x4 - 3x*3 - 7x - 10。

代码执行的另一个很好的用例是调用外部 API。如果模型被指示正确使用 API,它可以编写使用它的代码。通过向模型提供演示如何使用 API 的文档和/或代码示例,可以指导模型如何使用 API。

   
系统 您可以通过将 Python 代码括在三重反引号中来编写和执行 Python 代码。另请注意,您可以访问以下模块来帮助用户向其朋友发送消息:</br></br>’'’python</br>import message</br>message.write(to=“John”, message=“嘿,下班后想见面吗?’’’

** 警告:执行模型生成的代码本身并不安全,任何试图执行此操作的应用程序都应采取预防措施。特别是,需要一个沙盒代码执行环境来限制不受信任的代码可能造成的危害。 **

策略:授予模型对特定函数的访问权限

聊天完成 API 允许在请求中传递函数描述列表。这使模型能够根据提供的架构生成函数参数。生成的函数参数由 API 以 JSON 格式返回,可用于执行函数调用。然后,可以在以下请求中将函数调用提供的输出反馈到模型中以关闭循环。这是使用 OpenAI 模型调用外部函数的推荐方式。要了解更多信息,请参阅我们介绍性文本生成指南中的函数调用部分,以及 OpenAI Cookbook 中的更多函数调用示例。

策略:系统地测试更改

有时很难判断更改(例如,新指令或新设计)是使您的系统变得更好还是更糟。看几个例子可能会暗示哪个更好,但是在样本量较小的情况下,很难区分真正的改进还是随机的运气。也许这种变化有助于某些输入的性能,但会损害其他输入的性能。

评估程序(或“评估”)对于优化系统设计非常有用。好的评估是:

  • 代表现实世界的用法(或至少是多样化的)
  • 包含许多测试用例以获得更高的统计能力(请参阅下表以获取指南)
  • 易于自动化或重复

image

输出的评估可以由计算机、人类或混合完成。计算机可以使用客观标准(例如,具有单个正确答案的问题)以及一些主观或模糊标准自动执行评估,其中模型输出由其他模型查询评估。OpenAI Evals是一个开源软件框架,提供用于创建自动评估的工具。

当存在一系列被认为质量同样高的可能输出时,基于模型的评估可能很有用(例如,对于答案很长的问题)。使用基于模型的评估可以实际评估的内容与需要人工评估的内容之间的界限是模糊的,并且随着模型功能的增强而不断变化。我们鼓励进行实验,以确定基于模型的评估对您的用例的效果如何。

策略:参考黄金标准答案评估模型输出

假设已知问题的正确答案应参考一组特定的已知事实。然后,我们可以使用模型查询来计算答案中包含多少必需的事实。

例如,使用以下系统消息:

image

下面是一个示例输入,其中两个点都得到满足:

image

下面是一个示例输入,其中仅满足一个点:

image

下面是一个示例输入,一个都不满足:

image

这种类型的基于模型的评估有许多可能的变体。考虑以下变体,该变体跟踪候选答案和黄金标准答案之间的重叠类型,并跟踪候选答案是否与黄金标准答案的任何部分相矛盾。

image

下面是一个带有不合格答案的示例输入,但与专家答案并不矛盾:

image

下面是一个带有答案的示例输入,该答案与专家答案直接矛盾:

image

下面是一个带有正确答案的示例输入,该输入还提供了比必要内容更多的详细信息:

image

参考资料

https://platform.openai.com/docs/guides/prompt-engineering