openai o1官网

最简单的方式让你看明白OpenAI的o1模型是什么

chatgpt2024-09-13 21:12:5785
今天OpenAI 突然发布了 OpenAI o1 系列的2个模型,o1 在推理能力上代表了人工智能最强的水平。在国际数学奥林匹克竞赛(IMO)的资格考试中,GPT-4o只正确解决了13%的问题,而这个推理模型得分为83%。它们的编程能力在竞赛中得到了评估,在Codeforces比赛中达到了89百分位。

OpenAI CEO 山姆奥特曼表示:「OpenAI o1 是一个新范式的开始:可以进行通用复杂推理的 AI。」

此次OpenAI 将这个模型命名为 OpenAI o1,官方的说法是这个新模型对于复杂的推理任务,是一个重大进步。因此并没有使用GPT作为前缀,这意味着它不是GPT 5,与 GPT 也不是一个系列,这是一个新型的模型。关于 OpenAI o1模型的特点:

1、新系列模型会花更多时间对你的提问进行思考后再回答,并且会展现思考过程。

2、新系列模型在物理、化学和生物学的表现基本达到博士生水平

3、适用领域:科学研究、编码、数学等复杂推理领域,在数学和编码方面较之前 GPT-4o 有了根本性的提升


OpenAI o1 使用了什么方式变强?

目前从已经公开的信息中,并没有得到准确的答案,根据公开的访谈、OpenAI员工信息和实现效果,大致能推出2种路线:

1、思维链(CoT):思维链是指让AI回答问题之前,先把问题拆解成一二三步,然后再按照步骤回答问题。o1在回答问题前会产生一个内部的思维链,这使得它能够进行更深入的推理。

2、Agent:是指大语言模型通过对输出结果进行反思(Reflection)、使用外部工具(tool use)、对任务进行规划(Planning)、多模型协同(Multi agent collaboration),多种拆解方法来解决一个极其复杂的问题,可以大大提高解决问题的效果。就像一个全能的工具箱。


这次发布的两个模型,怎么理解和以前的GPT 4、GPT 4o的区别呢?

o1 preview(预览版):性能强大,适用于处理各个领域推理的复杂推理任务。o1 mini(迷你版):经济高效,适用于需要推理但不复杂的应用场景。

用 OpenAI 官方的例子来解释的话,当你有一个最简单的问题,例如:「意大利的首都是哪里?」,这个问题模型不需要经过深思熟虑的思考就可以回答,那就使用之前的GPT 4。当你需要发图片给 AI,或者需要AI生成图片的时候,就用 GPT 4o。

而如果你的问题非常复杂,需要严谨的推理过程,那就使用o1模型。o1 preview是个专家,每次回答问题由于严谨,所以也很慢,而且也很贵(200美元/月)。o1 mini相对逻辑能力较弱,但速度快,也便宜。例如以下这题:

小明每分钟走70米,小红每分钟走60米,两人从同一地点同时出发向走了3分钟,接着小明掉头去追小红。

追上小红后,距离小明调头经过了多长时间?小明将在距离起点多远的

位置追上小红?‍


实际效果对比

说了这么多,用几道题对比 o1 preview、o1 mini 和GPT 4o 的效果区别,这之间的差距马上就能一目了然。以下题目都摘自网络,并非原创题目,但也很抱歉找不到原出处。

第一题:我们先用一道最简单的题,这道小学生都会的题之前让很多AI都翻车了,分别看看 GPT 4o、o1 mini、o1 preview 的效果。

GPT 4o:直接回答问题,最简单的数字比大小,依然翻车


o1 mini:正确答案,会进行简单的思考


o1 preview:经过深思熟虑,考虑过各种情况,最终得出正确答案。


第二题:对o1 preview与其他模型的能力有了一个简单的认识后,再来一道不算复杂的数学题:

小明每分钟走70米,小红每分钟走60米,两人从同一地点同时出发向走了3分钟,接着小明掉头去追小红。

追上小红后,距离小明调头经过了多长时间?小明将在距离起点多远的位置追上小红?

o1 preview不仅给出了非常严谨的推导过程,并且答案都是对的:他们在小明转身后39分钟相遇,相遇点位于小红路径上距起点2520米的地方。


第三题:再让o1 preview挑战一下数独题,看看它的效果如何

数独谜题:在一个9x9的数独谜题中,已知第一行的数字是 5, 3, _, _, 7, _, _, _, _,请推理出第一行剩余的数字可能是什么,并解释你的推理过程。


o1 preview 给出了非常严谨的推理过程,答案也符合预期


第四题:继续上难度,让o1 preview挑战最难的密码破解

破解复杂密码:你发现了一串奇怪的字符:NZDE YVIR YLFI URMWH HLLM。已知这是用某种替换密码加密的英文橘子,而且可能与一本著名的科幻小说有关,你会如何着手破解这个密码?

o1 preview 经过很长的分析,最终给出了2个参考答案,但由于我也没有在网上查到正确答案,因此也无法验证答案的对错。但可以看出o1 preview在推理能力上相比以前的模型大大增加了。

结语

通过对 OpenAI o1 项目组的查户口,我发现项目组中有一位华人科学家 Jason Wei 。他参与了 OpenAI 很多模型的开发工作,也是思维链 COT 的提出者。因此可以初步判断 OpenAI o1 采用了思维链的方式,帮助用户拆解复杂问题,从而达到了更好的效果。

我认为OpenAI o1 将是开启 Agent 模式的第一步,OpenAI o1 模型证明了对复杂问题进行拆解可以有效提高数学、编码、物理等领域的回答质量,虽然不能完美解决问题,但大大提升了可用性。这提醒更多AI从业者,可以使用COT、Agent思路解决业务中遇到的问题,提高AI产品的生成效果,使得AI产品可以更快走入真正的工作流中。


本文链接:https://openai-o1.cc/chatgpt/537.html

OpenAI-o1OpenAI o1OpenAI01chatgpt o1o1-minio1-previewOpenAI o1 miniOpenAI o1 previewOpenAI o1官网OpenAI o1官网入口OpenAI o1地址OpenAI o1中文版openai o1模型简介

相关文章

网友评论