openai o1官网

OpenAI’s o1 Model--一个需要深思熟虑的模型

chatgpt2024-09-21 18:48:07201

图片由Jim Clyde Monge拍摄

经过几个月的社交媒体挑逗，并隐藏在代号“Project Strawberry”后面，OpenAI备受期待的新语言模型终于来了——它被称为“o1”。

他们没有把它命名为GPT-5或GPT-4.1，这有点非传统。那么，他们为什么选择o1？

根据OpenAI的说法，这些新模型的进步是如此重要，以至于他们觉得有必要将计数器重置为1：

但对于复杂的推理任务来说，这是一个重大的进步，代表了人工智能能力的新水平。鉴于此，我们正在将计数器重置为1，并将该系列命名为OpenAI o1。

这些模型的主要重点是通过复杂的任务进行思考和推理，并解决更难的问题。所以，不要指望它能快如闪电；相反，它提供了比以前的型号更好、更合乎逻辑的答案。

o1系列型号有两种变体：o1-mini和o1-preview。

o1-preview：这是未来将发布的最先进和最有能力的官方o1模型的模型预览。o1显著推进了人工智能推理的最前沿。
o1-mini：这是一个更快、更便宜的推理模型，在编码方面特别有效。作为一个较小的模型，o1-mini比o1-preview便宜80%，使其成为一个强大、具有成本效益的模型，适用于需要推理但不需要广泛世界知识的应用程序。

OpenAI强调，这些新模型通过强化学习进行训练，以执行复杂的推理。但在法学硕士的背景下，推理到底意味着什么？

推理是如何运作的？

就像人类在回答一个难题之前思考一段时间一样，o1在试图解决问题时使用一系列思想。

它学会了识别和纠正自己的错误。它学会了将棘手的步骤分解为更简单的步骤。当当前方法不起作用时，它学会了尝试不同的方法。

关键点是，推理允许模型在生成最终响应之前考虑多种方法。

流程如下：

生成推理令牌
生成可见的完成令牌作为答案
从上下文中丢弃推理令牌

丢弃推理令牌使上下文专注于基本信息。

来自OpenAI的图片

注意：虽然推理令牌无法通过API可见，但它们仍然在模型的上下文窗口中占用空间，并作为输出令牌计费。

这种方法可能很慢，但根据英伟达的高级研究员Jim Fan的说法，我们终于看到推理时间扩展的范式在生产中普及和部署。

图片来自Jim Fan

Jim提出了一些很好的观点：

你不需要一个巨大的模型来进行推理。许多参数专门用于记忆事实，以便在琐事QA等基准中表现良好。可以从知识中排除推理，即一个知道如何调用浏览器和代码验证器等工具的小型“推理核心”。训练前计算可能会减少。
大量的计算被转移到服务推理上，而不是训练前/训练后。法学硕士是基于文本的模拟器。通过在模拟器中推出许多可能的策略和场景，该模型最终将融合到良好的解决方案。这个过程是一个研究充分的问题，就像AlphaGo的蒙特卡洛树搜索（MCTS）一样。

o1与GPT-4o相比如何？

为了测试o1模型与GPT-4o的叠加情况，OpenAI进行了一组不同的人体检查和ML基准测试。

来自OpenAI的图片

上图表明，o1在涉及数学、编码和科学问题的具有挑战性的推理基准上比GPT-4o有了很大的改进。

在评估OpenAI新发布的o1模型时，OpenAI发现它们在GPQA钻石基准上表现出色——这是一个具有挑战性的智力测试，评估化学、物理和生物学方面的专业知识。

为了将模型的性能与人类的性能进行比较，OpenAI与拥有博士学位的专家合作，他们回答了相同的GPQA-钻石问题。

值得注意的是，o1超越了这些人类专家，成为第一个在这个基准上这样做的模型。虽然这并不意味着o1在各方面都优于博士学位，但它确实表明该模型更擅长解决博士需要解决的某些问题。

您可以在这里阅读更多关于o1模型的技术报告。

现在，要了解o1与之前的型号GPT-4o相比性能如何，让我们来看看一个经典问题：计算“草莓”一词中的“r”数。

提示：草莓这个词里有多少个“r”字母？

o1花了33秒和296个代币才解决它，回答正确。
GPT-4o花了不到一秒钟，消耗了39个代币，但没有通过测试。

我们再试试一个吧。这一次，我们将要求两个模型列出一个名称中字母“A”在第三位的国家列表。

提示：给我5个国家，名字的第三位是字母A

图片由Jim Clyde Monge拍摄

同样，o1回答正确，尽管“思考”的时间比GPT-4o长。

o1不完美

甚至Sam Altman也承认o1仍然有缺陷和有限。首次使用时，它可能看起来比花更多时间使用它后更令人印象深刻。

有时，它仍然会犯错误——即使在简单的问题上，比如问它的回答有多少“r”。

图片由Jim Clyde Monge拍摄

另一件需要注意的是，o1模型在推理方面提供了显著的进步，但并非在所有用例中都取代GPT-4o。

对于需要图像输入、函数调用或持续快速响应时间的应用程序，GPT-4o和GPT-4o迷你型号将继续是正确的选择。

对于开发人员来说，以下是o1的一些尚未可用的聊天完成API参数：

模式：仅文本，不支持图像。
消息类型：仅限用户和助手消息，不支持系统消息。
流媒体：不支持。
工具：不支持工具、函数调用和响应格式参数。
Logprobs：不支持。
其他：temperature、top_p和n固定在1，而presence_penalty和frequency_penalty固定在0。
助手和批处理：助理API或批处理API不支持这些模型。

如何访问o1模型？

o1今天在ChatGPT中向所有Plus和Team用户推出，并在API中向第5层开发人员推出。

如果您是免费ChatGPT用户，OpenAI提到他们计划为所有ChatGPT免费用户提供o1-mini访问权限，但没有提供具体的时间表。

o1也可以在OpenAI Playground中找到。只需登录https://platform.openai.com/，在“游乐场”选项卡下，将模型设置为“o1-mini”或“o1-preview”。

图片由Jim Clyde Monge拍摄

还有API模型“o1-mini-2024–09–12”和“o1-preview-2024–09–12”已经可供开发人员访问。

o1模型的提示提示

如果您习惯于使用Claude 3.5 Sonnet、Gemini Pro或GPT-4o等型号的提示，则提示o1型号是不同的。

o1模型在直接提示下表现最好。一些提示工程技术，如少镜头提示或指示模型“一步一步思考”，可能无法提高性能，有时还会阻碍性能。

查看一些最佳做法：

保持提示简单直接：模型擅长理解和响应简短、清晰的指示，而无需广泛指导。
避免思想链提示：由于这些模型在内部进行推理，因此没有必要提示他们“一步一步地思考”或“解释你的推理”。
使用分隔符来清晰：使用三引号、XML标签或部分标题等分隔符来清楚地指示输入的不同部分，帮助模型适当地解释不同的部分。
限制检索增量生成（RAG）中的附加上下文：在提供附加上下文或文档时，仅包含最相关的信息，以防止模型使其响应过度复杂化。

最后的想法

好吧，所以o1在基于聊天的问题解决和内容生成方面令人印象深刻。但你知道我最兴奋的是什么吗？它集成到像Cursor AI这样的编码助手中。

我已经见过人们将他们的API密钥插入光标，并使用o1为他们编写代码。我还没有试过，但我超级兴奋地尝试一下。

从我最初的测试来看，o1的思考、计划和执行能力超乎想象。我们基本上正在见证代理编码系统的ChatGPT时刻。其新能力的影响是巨大的。

我真的相信，用这个构建的全新产品浪潮将与我们所见过的任何东西都不同。软件开发世界的新可能性令人兴奋，我迫不及待地想看看o1将如何在未来几周彻底改变我们的编码和构建应用程序的方式。

本文链接：https://openai-o1.cc/chatgpt/540.html

chatgpt入口微软ChatGPT chatgpt论文 chatgpt运行逻辑 chatgpt写出来的论文查重率高吗 chatgpt团队人数

相关文章

OpenAI直播第9天,OPENAI o1模型API、实时API优化、偏好微调、Java SDK
在第9天的直播中，OpenAI推出o1的API，以及多项重要更新，展示更强大的模型和工具，提升性能与灵活性。这次发布聚焦开发者体验，涵盖模型定制、实时API优化等方面。新发布的OpenAI o1模型A...
OpenAI-O1资讯2024-12-18131OPENAI o1 GPT-4o mini OpenAI o1 api
OpenAI o1为何让其他AI感到担心
OpenAI的一举一动，总能成为全球AI圈关注的焦点，而一款命名为“o1”的大模型亮相后，人们再一次看到了OpenAI对自我的超越和AI大模型未来的发展方向。01命名为“o1”的大模型自OpenAI因...
OpenAI-O1资讯2024-09-20136微软chatgpt4.0体验 chatgpt download chatgpt老板 chatgpt能用来检查程序错误吗 chatgpt4.0要开会员吗 chatgpt会员权益
OpenAI o1：使用限额提高，o1 模型深度解析
最新公告OpenAI 提高了 o1-mini 和 o1-preview 的消息使用限额，以便 Plus 和 Team 用户能够更频繁地使用 o1。o1-mini 的限额从每周 50 条增加到每天 50...
OpenAI-O1资讯2024-09-18280OpenAI-o1 OpenAI o1 OpenAI01 chatgpt o1 o1-mini o1-preview OpenAI o1 mini OpenAI o1 preview OpenAI o1官网 OpenAI o1官网入口 OpenAI o1地址 OpenAI o1中文版 openai o1模型简介
【一手测评】OpenAI 震撼发布 o1 大模型！
OpenAI 悄无声息地发布了 OpenAI o1。GPT-4o竟然被碾压至此！！！GPT-4o竟然被碾压至此！！！风声四起的Q*模型，最早的消息来自去年十一月份。而前段时间一直在预热，代号为“草莓”...
OpenAI-O1资讯2024-09-14154chatgpt4怎么注册 chatgpt官网 chatgpt论文怎么用chatgpt润色论文商汤科技类似chatgpt的产品微软发布chatgpt是什么时间
为什么说 OpenAI o1是自Transformer以来最大的更新？
o1 是自 Transformer 技术以来最大的一次 AI 更新，但它并不是 AGI。OpenAI 确实在推动一些以前无法实现的关键进展，并为 AGI 铺平了道路。这个新模型是朝着 AGI 迈出的重...
OpenAI-O1资讯2024-09-14136

网友评论