openai o1官网

OpenAI o1为何让其他AI感到担心

chatgpt2024-09-20 12:42:4189

OpenAI的一举一动,总能成为全球AI圈关注的焦点,而一款命名为“o1”的大模型亮相后,人们再一次看到了OpenAI对自我的超越和AI大模型未来的发展方向。

01

命名为“o1”的大模型

自OpenAI因AI大火之后,“里程碑”“标杆”“风向标”等赞誉便毫不吝啬地被媒体放到了其产品上,然而,作为一款能让OpenAI命名为“o1”,足以看出新模型的重要性。

o1被赋予了“o”系列,以彰显其在推理和复杂问题解决方面的突破性进展,而OpenAI将计数器重置为1,并以此作为新系列模型的编号,这表明o1是该公司在人工智能领域的一个新的起点或里程碑。  

单从命名的角度来看,“o1”简洁而富有深意。它避免了传统命名方式中的复杂性和冗余性,以最直接、最简洁的方式传达了OpenAI的核心理念和愿景。

而当我们对“o1”有一定了解后会发现,“o1”被赋予了推理能力的新高度,这使得它在处理复杂任务时表现出色,例如编程、问题解决以及学术基准测试中的表现优于之前的GPT-4o模型。

因此,“o1”不仅是一个技术上的进步,也是对AI发展进程的一种重启和再定义。

02

模仿人类的思维过程

会思考的OpenAI o1

当算力、语料成为AI大模型迭代的核心动力时,AI大模型必将陷入一场无休止的“内卷”中。OpenAI o1之所以一亮相就成为大众关注的焦点,很大程度得益于其逻辑思维模式的改变,这里我们并非故意不用“计算流程”而是“逻辑思维模式”,而是OpenAI o1的核心特点在于它能够在回答问题前进行深入思考,模仿人类的思维过程,从而更好地处理复杂的推理任务。


OpenAI o1会模仿人类的思考节奏,与以往追求快速响应的AI模型不同,o1模型通过引入“慢思考”的概念,模仿人类在回答复杂问题时深思熟虑的过程。这种方式使得o1在处理问题时更加全面和深入,而非仅仅追求速度。

而在具体思维链的落地上,o1模型在生成答案前会构建内部思维链,逐步思考问题的不同方面。这一过程与人类在解决问题时的思考路径相似,即先理解问题,然后逐步拆解、分析和推理,最终得出结论。   

而最让人吃惊的是o1能够执行一系列逻辑上相互关联的推理步骤,如在解决科学、编程和数学等领域的难题时,o1能够逐步推导出答案,并向用户展示推理过程,这种能力使得它在处理复杂问题时更具优势。

o1 大模型首次证明了语言模型可以进行真正地强化学习。

除思考模式的变化外,o1在学习成长上同样变化很大。o1模型采用强化学习算法进行训练,通过奖励和惩罚机制来优化其决策过程。

这种训练方式使得o1能够像人类一样,在面对复杂问题时不断试错、学习和优化其解决方案,同时,o1模型通过自我监督学习的方式,如预测或生成数据中的某些部分,来提高其对数据的理解和处理能力。尤其是o1还具备识别并纠正自身推理过程中错误的能力。

这种自我纠正机制使得o1在回答问题时更加准确和可靠,减少了因错误推理导致的误导性答案,这意味着o1模型不再是“一力降十会”的解题模式,o1模型不再像其他AI模型一样,在面对难题时,通过数据库不断配备比对找出正确答案,而是会自己在生成答案中自我思考和纠错。   


具体以编程为例,基于o1进行了初始化并进一步训练了其编程技能后,OpenAI 训练得到了一个非常强大的编程模型(o1-ioi)。该模型在 2024 年国际信息学奥林匹克竞赛(IOI)赛题上得到了 213 分,达到了排名前 49% 的水平。并且该模型参与竞赛的条件与 2024 IOI 的人类参赛者一样:需要在 10 个小时内解答 6 个高难度算法问题,并且每个问题仅能提交 50 次答案。    

有提交次数的编程竞赛上,o1的思考能力价值得到体现   

针对每个问题,这个经过专门训练的o1模型会采样许多候选答案,然后基于一个测试时选取策略提交其中 50 个答案。选取标准包括在 IOI 公共测试案例、模型生成的测试案例以及一个学习得到的评分函数上的性能。研究表明,这个策略是有效的。因为如果直接随机提交一个答案,则平均得分仅有 156。这说明在该竞赛条件下,这个策略至少值 60 分。      

OpenAI发现,如果放宽提交限制条件,则模型性能更是能大幅提升。如果每个问题允许提交 1 万次答案,即使不使用上述测试时选取策略,该模型也能得到 362.14 分,但这就成为“试”出来的答案而非“思考”出来的答案了。

03

AGI时代的基石

不算便宜的定价

强大的逻辑思维能力,让OpenAI o1在数学、编码和科学问答等一系列高难基准测试中展现出了超强实力。

具体而言,在AIME2024高水平数学竞赛中,o1正式版的准确率达到了83.3%;在编程竞赛中,o1正式版的准确率为89%;在测试博士级科学问题的基准GPQA-Diamond上,o1甚至超过了人类专家的水平。在许多推理密集型基准测试中,o1的表现可与人类专家相媲美。

最近的前沿模型在 MATH 和 GSM8K 上表现得非常好,以至于这些基准测试在区分模型方面不再有效。但这也并不意味着o1模型就是完美的。OpenAI也承认,在设计、写作、编辑文字等方面上,o1远不如GPT-4o。o1也没有浏览网页或处理文件和图像的能力。

实验结果表明:o1超越了人类专家的表现,成为第一个在该基准测试中做到这一点的模型。

同时,o1模型作为早期版本,尚未集成浏览网页获取信息、上传文件和图像等ChatGPT类的功能,其当前更多是作为基层模型训练行业大模型的,这意味着o1目前的客户以B端为主,其费用和价格并不算低。针对开发者,o1的API价格甚至可以被形容为相对较高。

o1预览版的费用为每百万输入15美元,输出60美元;而o1 mini则相对便宜,输入每百万3美元,输出12美元。这种定价策略展示了o1模型的市场独特性,而同为OpenAI旗下的两款模型,不少人都好奇o1与GPT-4o的定价对比,这里我们做一个简单的对比——    

关于o1模型的定价:
·输入价格为每百万token 15美元。
·输出价格为每百万token 60美元。             
关于GPT-4o的定价:
·输入价格为每千token(约750个单词)0.03美元。
·输出价格为每千token(同样约750个单词)0.06美元。

从这些数据可以看出,o1模型的输入和输出价格分别是GPT-4o的3倍和4倍,这可能会影响开发者和企业在使用这两种模型时的成本考量,不过这样的定位也充分反映了o1的市场定位,其除了已经展示的数学、编码和科学问答等领域外,未来还有可能扩展到更多领域如医疗、金融、教育等。


本文链接:https://openai-o1.cc/chatgpt/539.html

微软chatgpt4.0体验chatgpt downloadchatgpt老板chatgpt能用来检查程序错误吗chatgpt4.0要开会员吗chatgpt会员权益

相关文章

网友评论