openai o1官网

OpenAI’s o1 Model--一个需要深思熟虑的模型

chatgpt2024-09-21 18:48:07146


图片由Jim Clyde Monge拍摄


经过几个月的社交媒体挑逗,并隐藏在代号“Project Strawberry”后面,OpenAI备受期待的新语言模型终于来了——它被称为“o1”。

他们没有把它命名为GPT-5或GPT-4.1,这有点非传统。那么,他们为什么选择o1?

根据OpenAI的说法,这些新模型的进步是如此重要,以至于他们觉得有必要将计数器重置为1:

但对于复杂的推理任务来说,这是一个重大的进步,代表了人工智能能力的新水平。鉴于此,我们正在将计数器重置为1,并将该系列命名为OpenAI o1。

这些模型的主要重点是通过复杂的任务进行思考和推理并解决更难的问题所以,不要指望它能快如闪电;相反,它提供了比以前的型号更好、更合乎逻辑的答案。

o1系列型号有两种变体:o1-mini和o1-preview。

  • o1-preview:这是未来将发布的最先进和最有能力的官方o1模型的模型预览。o1显著推进了人工智能推理的最前沿。

  • o1-mini:这是一个更快、更便宜的推理模型,在编码方面特别有效。作为一个较小的模型,o1-mini比o1-preview便宜80%,使其成为一个强大、具有成本效益的模型,适用于需要推理但不需要广泛世界知识的应用程序。

OpenAI强调,这些新模型通过强化学习进行训练,以执行复杂的推理。但在法学硕士的背景下,推理到底意味着什么?

推理是如何运作的?

就像人类在回答一个难题之前思考一段时间一样,o1在试图解决问题时使用一系列思想。

它学会了识别和纠正自己的错误。它学会了将棘手的步骤分解为更简单的步骤。当当前方法不起作用时,它学会了尝试不同的方法。

关键点是,推理允许模型在生成最终响应之前考虑多种方法。

流程如下:

  1. 生成推理令牌

  2. 生成可见的完成令牌作为答案

  3. 从上下文中丢弃推理令牌

丢弃推理令牌使上下文专注于基本信息。



来自OpenAI的图片


注意:虽然推理令牌无法通过API可见,但它们仍然在模型的上下文窗口中占用空间,并作为输出令牌计费。

这种方法可能很慢,但根据英伟达的高级研究员Jim Fan的说法,我们终于看到推理时间扩展的范式在生产中普及和部署。



图片来自Jim Fan


Jim提出了一些很好的观点:

  1. 你不需要一个巨大的模型来进行推理。许多参数专门用于记忆事实,以便在琐事QA等基准中表现良好。可以从知识中排除推理,即一个知道如何调用浏览器和代码验证器等工具的小型“推理核心”。训练前计算可能会减少。

  2. 大量的计算被转移到服务推理上,而不是训练前/训练后。法学硕士是基于文本的模拟器。通过在模拟器中推出许多可能的策略和场景,该模型最终将融合到良好的解决方案。这个过程是一个研究充分的问题,就像AlphaGo的蒙特卡洛树搜索(MCTS)一样。

o1与GPT-4o相比如何?

为了测试o1模型与GPT-4o的叠加情况,OpenAI进行了一组不同的人体检查和ML基准测试。



来自OpenAI的图片


上图表明,o1在涉及数学、编码和科学问题的具有挑战性的推理基准上比GPT-4o有了很大的改进。

在评估OpenAI新发布的o1模型时,OpenAI发现它们在GPQA钻石基准上表现出色——这是一个具有挑战性的智力测试,评估化学、物理和生物学方面的专业知识。

为了将模型的性能与人类的性能进行比较,OpenAI与拥有博士学位的专家合作,他们回答了相同的GPQA-钻石问题。

值得注意的是,o1超越了这些人类专家,成为第一个在这个基准上这样做的模型。虽然这并不意味着o1在各方面都优于博士学位,但它确实表明该模型更擅长解决博士需要解决的某些问题。

您可以在这里阅读更多关于o1模型的技术报告。

现在,要了解o1与之前的型号GPT-4o相比性能如何,让我们来看看一个经典问题:计算“草莓”一词中的“r”数。

提示:草莓这个词里有多少个“r”字母?




  • o1花了33秒和296个代币才解决它,回答正确。

  • GPT-4o花了不到一秒钟,消耗了39个代币,但没有通过测试。

我们再试试一个吧。这一次,我们将要求两个模型列出一个名称中字母“A”在第三位的国家列表。

提示:给我5个国家,名字的第三位是字母A



图片由Jim Clyde Monge拍摄


同样,o1回答正确,尽管“思考”的时间比GPT-4o长。

o1不完美

甚至Sam Altman也承认o1仍然有缺陷和有限。首次使用时,它可能看起来比花更多时间使用它后更令人印象深刻。


有时,它仍然会犯错误——即使在简单的问题上,比如问它的回答有多少“r”。



图片由Jim Clyde Monge拍摄


另一件需要注意的是,o1模型在推理方面提供了显著的进步,但并非在所有用例中都取代GPT-4o。

对于需要图像输入、函数调用或持续快速响应时间的应用程序,GPT-4o和GPT-4o迷你型号将继续是正确的选择。

对于开发人员来说,以下是o1的一些尚未可用的聊天完成API参数:

  • 模式:仅文本,不支持图像。

  • 消息类型:仅限用户和助手消息,不支持系统消息。

  • 流媒体:不支持。

  • 工具:不支持工具、函数调用和响应格式参数。

  • Logprobs:不支持。

  • 其他:temperaturetop_pn固定在1,而presence_penaltyfrequency_penalty固定在0

  • 助手和批处理:助理API或批处理API不支持这些模型。

如何访问o1模型?

o1今天在ChatGPT中向所有Plus和Team用户推出,并在API中向第5层开发人员推出。

如果您是免费ChatGPT用户,OpenAI提到他们计划为所有ChatGPT免费用户提供o1-mini访问权限,但没有提供具体的时间表。

o1也可以在OpenAI Playground中找到。只需登录https://platform.openai.com/,在“游乐场”选项卡下,将模型设置为“o1-mini”或“o1-preview”。



图片由Jim Clyde Monge拍摄


还有API模型“o1-mini-2024–09–12”和“o1-preview-2024–09–12”已经可供开发人员访问。

o1模型的提示提示

如果您习惯于使用Claude 3.5 Sonnet、Gemini Pro或GPT-4o等型号的提示,则提示o1型号是不同的。

o1模型在直接提示下表现最好。一些提示工程技术,如少镜头提示或指示模型“一步一步思考”,可能无法提高性能,有时还会阻碍性能。

查看一些最佳做法:

  • 保持提示简单直接:模型擅长理解和响应简短、清晰的指示,而无需广泛指导。

  • 避免思想链提示:由于这些模型在内部进行推理,因此没有必要提示他们“一步一步地思考”或“解释你的推理”。

  • 使用分隔符来清晰:使用三引号、XML标签或部分标题等分隔符来清楚地指示输入的不同部分,帮助模型适当地解释不同的部分。

  • 限制检索增量生成(RAG)中的附加上下文:在提供附加上下文或文档时,仅包含最相关的信息,以防止模型使其响应过度复杂化。

最后的想法

好吧,所以o1在基于聊天的问题解决和内容生成方面令人印象深刻。但你知道我最兴奋的是什么吗?它集成到像Cursor AI这样的编码助手中。

我已经见过人们将他们的API密钥插入光标,并使用o1为他们编写代码。我还没有试过,但我超级兴奋地尝试一下。

从我最初的测试来看,o1的思考、计划和执行能力超乎想象。我们基本上正在见证代理编码系统的ChatGPT时刻。其新能力的影响是巨大的。

我真的相信,用这个构建的全新产品浪潮将与我们所见过的任何东西都不同。软件开发世界的新可能性令人兴奋,我迫不及待地想看看o1将如何在未来几周彻底改变我们的编码和构建应用程序的方式。


本文链接:https://openai-o1.cc/chatgpt/540.html

chatgpt入口微软ChatGPTchatgpt论文chatgpt运行逻辑chatgpt写出来的论文查重率高吗chatgpt团队人数

相关文章

网友评论