OpenAI o1 新版模型全文翻译
引入 OpenAI o1-preview
一系列解决难题的新推理模型,9月12日起开放使用
我们开发了一系列新的AI模型,旨在在响应之前花更多时间思考。它们能够推理复杂任务,并在科学、编程和数学领域解决比以往更难的问题。
今天,我们在ChatGPT和我们的API中发布了这个系列的第一个模型。这是一个预览版,我们预计会定期进行更新和改进。与此发布同时,我们还包括了正在开发中的下一个更新的评估。
工作原理
我们训练这些模型,在响应之前花更多时间思考问题,就像人类一样。通过训练,它们学会了改进自己的思维过程,尝试不同的策略,并识别自己的错误。
在我们的测试中,下一个模型更新在物理、化学和生物学的挑战性基准任务上表现得像博士生一样出色。我们还发现它在数学和编程方面表现优异。在国际数学奥林匹克(IMO)的资格考试中,GPT-4o只正确解决了13%的问题,而推理模型得分为83%。它们的编程能力在竞赛中达到了Codeforces竞赛中的89百分位。你可以在我们的技术研究文章中阅读更多内容。
作为一个早期模型,它还没有很多让ChatGPT有用的功能,比如浏览网页获取信息和上传文件和图像。但对于复杂的推理任务,这是一个显著的进步,代表了AI能力的新水平。因此,我们将计数器重置为1,并命名这一系列为OpenAI o1。
安全性
作为开发这些新模型的一部分,我们提出了一种新的安全培训方法,利用其推理能力使其遵守安全和对齐指南。通过能够理解上下文中的安全规则,它可以更有效地应用这些规则。
我们通过测试模型在用户试图绕过安全规则时(称为“越狱”)能多好地继续遵守其安全规则来衡量安全性。在我们最难的越狱测试之一中,GPT-4o得分为22(满分100),而我们的o1-preview模型得分为84。你可以在系统卡片和我们的研究文章中阅读更多内容。
为了匹配这些新模型的能力,我们加强了我们的安全工作、内部治理以及与联邦政府的合作。这包括使用我们的准备框架进行严格的测试和评估、一流的红队测试以及董事会级别的审查过程,包括由我们的安全与安保委员会进行审查。
为了推进我们对AI安全性的承诺,我们最近与美国和英国的AI安全研究所正式签署了协议。我们已经开始实施这些协议,包括授予研究所早期访问这个模型研究版本的权限。这是我们合作的重要第一步,有助于建立一个研究、评估和测试未来模型发布前后流程的过程。
适用人群
这些增强推理能力可能特别适用于科学、编程、数学等领域中处理复杂问题的人。例如,o1可以被医疗研究人员用于注释细胞测序数据,被物理学家用于生成量子光学所需的复杂数学公式,以及被各个领域的开发者用于构建和执行多步骤工作流程。