本文是 OpenAI 官方推出的推理模型最佳实践指南,参考意义重大。它详细介绍了 OpenAI 的推理模型和 GPT 模型之间的区别,以及如何根据不同的应用场景选择合适的模型。虽然本文主要针对 OpenAI 的模型,但其中介绍的推理模型选择和prompt工程技巧,对其他厂商推出的推理模型同样适用。建议大家认真学习,以便更好地利用各类推理模型提升工作效率和解决复杂问题。
要点总结:
- • OpenAI提供推理模型 (o1, o3-mini) 和 GPT 模型 (GPT-4o) 两种类型,它们的行为和擅长的任务不同。
- • 推理模型擅长复杂问题解决、策略规划、处理模糊信息,适合高精度要求的领域。
- • GPT模型擅长直接执行、速度快、成本低,适合明确定义的任务。
- • 大多数AI工作流程会结合使用两种模型:推理模型用于规划和决策,GPT模型用于任务执行。
- • 有效使用推理模型需要简单直接的提示,避免链式思考,使用分隔符,首先尝试零样本提示,并提供具体的指导方针。
翻译:
推理最佳实践
了解何时使用推理模型以及它们与 GPT 模型的比较。
OpenAI 提供两种类型的模型:推理模型(例如 o1 和 o3-mini)和 GPT 模型(例如 GPT-4o)。这些模型家族的行为不同。
本指南涵盖:
- 1. 我们的推理和非推理 GPT 模型之间的区别
- 2. 何时使用我们的推理模型
- 3. 如何有效地提示推理模型
推理模型 vs. GPT 模型
与 GPT 模型相比,我们的 o 系列模型在不同的任务中表现出色,并且需要不同的提示。一个模型系列并不比另一个更好——它们只是不同。
我们训练了我们的 o 系列模型(“规划者”),使其能够对复杂的任务进行更长时间和更深入的思考,使其能够有效地制定策略、规划复杂问题的解决方案以及基于大量模糊信息做出决策。这些模型还可以高精度地执行任务,使其成为需要人类专家的领域的理想选择——例如数学、科学、工程、金融服务和法律服务。
另一方面,我们的低延迟、更具成本效益的 GPT 模型(“主力军”)专为直接执行而设计。应用程序可以使用 o 系列模型来规划解决问题的策略,并使用 GPT 模型来执行特定任务,尤其是在速度和成本比完美准确性更重要的情况下。
如何选择
对你的用例来说,什么最重要?
- • 速度和成本 → GPT 模型速度更快,往往成本更低
- • 执行明确定义的任务 → GPT 模型能够很好地处理明确定义的任务
- • 准确性和可靠性 → o 系列模型是可靠的决策者
- • 复杂的问题解决 → o 系列模型可以处理模糊性和复杂性
如果在完成任务时速度和成本是最重要的因素,_并且_你的用例由直接、明确定义的任务组成,那么我们的 GPT 模型最适合你。但是,如果准确性和可靠性是最重要的因素_并且_你需要解决一个非常复杂的多步骤问题,那么我们的 o 系列模型可能适合你。
大多数 AI 工作流程将结合使用这两种模型——o 系列用于代理规划和决策,GPT 系列用于任务执行。

我们的 GPT-4o 和 GPT-4o mini 模型使用客户信息对订单详细信息进行分类,识别订单问题和退货政策,然后将所有这些数据点输入到 o3-mini 中,以根据政策对退货的可行性做出最终决定。
何时使用我们的推理模型
以下是我们从客户和 OpenAI 内部观察到的一些成功使用模式。这并不是对所有可能用例的全面回顾,而是为测试我们的 o 系列模型提供一些实用指导。
1. 导航模糊任务
推理模型特别擅长接受有限的信息或不同的信息片段,并通过一个简单的提示,理解用户的意图并处理指令中的任何缺失。事实上,推理模型通常会在做出不明智的猜测或试图填补信息空白之前提出澄清问题。
“o1 的推理能力使我们的多代理平台 Matrix 能够在处理复杂文档时生成详尽、格式良好且详细的响应。例如,o1 使 Matrix 能够通过一个基本的提示,轻松识别信贷协议中受限支付能力下可用的篮子。以前的模型都不如它表现出色。与其他模型相比,o1 在密集型信贷协议上,在 52% 的复杂提示中产生了更强的结果。”
—Hebbia,法律和金融领域的 AI 知识平台公司
2. 大海捞针
当你传递大量非结构化信息时,推理模型非常擅长理解并提取最相关的信息来回答问题。
“为了分析公司的收购,o1 审查了数十份公司文件——如合同和租赁协议——以找到可能影响交易的任何棘手条件。该模型的任务是标记关键条款,并在这样做时,在脚注中识别出一个关键的“控制权变更”条款:如果公司被出售,它将不得不立即偿还 7500 万美元的贷款。o1 对细节的极度关注使我们的 AI 代理能够通过识别关键任务信息来支持金融专业人士。”
—Endex,AI 金融情报平台
3. 在大型数据集中寻找关系和细微差别
我们发现推理模型特别擅长推理包含数百页密集、非结构化信息的复杂文档——例如法律合同、财务报表和保险索赔。这些模型尤其擅长在文档之间建立联系,并根据数据中未言明的真相做出决策。
“税务研究需要综合多个文档才能产生最终、连贯的答案。我们将 GPT-4o 换成了 o1,发现 o1 在推理文档之间的相互作用以得出任何单个文档中都不明显的逻辑结论方面要好得多。因此,通过切换到 o1,我们看到端到端性能提高了 4 倍——令人难以置信。”
—Blue J,用于税务研究的 AI 平台
推理模型还擅长推理细致的政策和规则,并将其应用于手头的任务,以达成合理的结论。
“在财务分析中,分析师经常处理围绕股东权益的复杂场景,并且需要了解相关的法律复杂性。我们用一个具有挑战性但常见的问题测试了来自不同提供商的约 10 个模型:筹款如何影响现有股东,尤其是当他们行使反稀释特权时?这需要推理融资前和融资后估值,并处理循环稀释循环——顶级财务分析师需要花费 20-30 分钟才能弄清楚。我们发现 o1 和 o3-mini 可以完美地做到这一点!这些模型甚至生成了一个清晰的计算表,显示了对 10 万美元股东的影响。”
–BlueFlame AI,用于投资管理的 AI 平台
4. 多步骤代理规划
推理模型对于代理规划和战略制定至关重要。当推理模型被用作“规划者”时,我们已经看到了成功,它为问题生成详细的多步骤解决方案,然后根据高智能或低延迟是否最重要,为每个步骤选择和分配正确的 GPT 模型(“执行者”)。
“我们在我们的代理基础设施中使用 o1 作为规划者,让它协调工作流程中的其他模型来完成多步骤任务。我们发现 o1 非常擅长选择数据类型并将大问题分解为更小的块,使其他模型能够专注于执行。”
—Argon AI,制药行业的 AI 知识平台
“o1 为我们在 Lindy(我们的 AI 工作助手)的许多代理工作流程提供支持。该模型使用函数调用从你的日历或电子邮件中提取信息,然后可以自动帮助你安排会议、发送电子邮件和管理你日常任务的其他部分。我们将所有以前导致问题的代理步骤切换到了 o1,并观察到我们的代理基本上在一夜之间变得完美无缺!”
—Lindy.AI,工作 AI 助手
5. 视觉推理
截至今天,o1 是唯一支持视觉推理能力的推理模型。它与 GPT-4o 的区别在于 o1 甚至可以掌握最具挑战性的视觉效果,例如结构不明确的图表和表格,或者图像质量差的照片。
“我们自动化了数百万在线产品的风险和合规性审查,包括豪华珠宝仿制品、濒危物种和管制物质。GPT-4o 在我们最困难的图像分类任务中达到了 50% 的准确率。o1 在未对我们的流水线进行任何修改的情况下,实现了令人印象深刻的 88% 的准确率。”
—Safetykit,AI 商户监控平台
从我们自己的内部测试中,我们看到 o1 可以从高度详细的建筑图纸中识别固定装置和材料,以生成全面的材料清单。我们观察到的最令人惊讶的事情之一是,o1 可以通过获取建筑图纸一页上的图例并将其正确地应用于另一页,而无需明确的说明,从而在不同的图像之间建立联系。在下面你可以看到,对于 4×4 PT 木柱,o1 根据图例识别出“PT”代表压力处理。

6. 审查、调试和提高代码质量
推理模型在审查和改进大量代码方面特别有效,考虑到模型较高的延迟,通常在后台运行代码审查。
“我们在 GitHub 和 GitLab 等平台上提供自动化的 AI 代码审查。虽然代码审查过程本身对延迟不敏感,但它确实需要了解多个文件中的代码差异。这就是 o1 真正发光的地方——它能够可靠地检测到代码库中的微小变化,这些变化可能会被人工审查员忽略。在切换到 o 系列模型后,我们能够将产品转化率提高 3 倍。”
—CodeRabbit,AI 代码审查初创公司
虽然 GPT-4o 和 GPT-4o mini 可能更适合用其较低的延迟来编写代码,但我们也看到 o3-mini 在代码生成方面有所飙升,用于对延迟不太敏感的用例。
“o3-mini 始终生成高质量、有结论的代码,并且即使对于非常具有挑战性的编码任务,当问题定义明确时,它也经常得出正确的解决方案。虽然其他模型可能只对小规模、快速的代码迭代有用,但 o3-mini 擅长规划和执行复杂的软件设计系统。”
—Codeium,AI 驱动的代码扩展初创公司
7. 评估和基准测试其他模型响应
我们还看到推理模型在基准测试和评估其他模型响应方面做得很好。数据验证对于确保数据集质量和可靠性非常重要,尤其是在医疗保健等敏感领域。传统的验证方法使用预定义的规则和模式,但像 o1 和 o3-mini 这样的高级模型可以理解上下文并推理数据,从而实现更灵活和智能的验证方法。
“许多客户使用 LLM-as-a-judge 作为他们在 Braintrust 中的评估过程的一部分。例如,一家医疗保健公司可能会使用像 gpt-4o 这样的主力模型来总结患者的问题,然后使用 o1 评估摘要质量。一位 Braintrust 客户看到法官的 F1 分数从使用 4o 时的 0.12 上升到使用 o1 时的 0.74!在这些用例中,他们发现 o1 的推理在找到完成中的细微差异方面是一个游戏规则改变者,对于最困难和最复杂的评分任务来说。”
—Braintrust,AI 评估平台
如何有效地提示推理模型
这些模型在简单的提示下表现最佳。一些提示工程技术,例如指示模型“逐步思考”,可能不会提高性能(有时甚至会阻碍性能)。请参阅下面的最佳实践,或开始使用提示示例。
- • 开发者消息是新的系统消息:从
o1-2024-12-17
开始,推理模型支持开发者消息而不是系统消息,以符合 模型规范 中描述的指挥链行为。 - • 保持提示简单直接:这些模型擅长理解和响应简短、清晰的指令。
- • 避免链式思考提示:由于这些模型在内部执行推理,因此提示它们“逐步思考”或“解释你的推理”是不必要的。
- • 使用分隔符来提高清晰度:使用 markdown、XML 标签和章节标题等分隔符来清晰地指示输入的各个不同部分,帮助模型适当地解释不同的部分。
- • 首先尝试零样本,如果需要再尝试少样本:推理模型通常不需要少样本示例来产生好的结果,因此首先尝试编写没有示例的提示。如果你对所需输出有更复杂的要求,那么在你的提示中包含一些输入和所需输出的示例可能会有所帮助。只需确保示例与你的提示说明非常吻合,因为两者之间的差异可能会产生较差的结果。
- • 提供具体指南:如果有任何你明确想要约束模型响应的方式(例如“提出一个预算低于 500 美元的解决方案”),请在提示中明确概述这些约束。
- • 对你的最终目标非常具体:在你的指令中,尝试为成功的响应提供非常具体的参数,并鼓励模型不断推理和迭代,直到它符合你的成功标准。
- • Markdown 格式:从
o1-2024-12-17
开始,API 中的推理模型将避免生成带有 markdown 格式的响应。要在你确实希望响应中使用 markdown 格式时向模型发出信号,请在开发者消息的第一行包含字符串Formatting re-enabled
。
来源:草台AI
发评论,每天都得现金奖励!超多礼品等你来拿
登录 后,在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则