openai o1官网

OpenAI的王炸: OpenAI o1 到底是何方神圣?

chatgpt2024-09-14 07:13:4672

自从上半年OpenAI发布Sora演示视频惊艳了全世界后,后面虽然都没有发布什么颠覆性的产品,一直不温不火,OpenAI 的乏力似乎是肉眼可见。

Sora 的无限期跳票,GPT4o 的演示效果也没有被很好复现,再加上宫斗后遗症以及不少人才流失,Claude/Google/xAI 等一众竞争对手也从难以望其项背追赶到似乎触手可及。

但是OpenAI 用一颗行动的心证明了,你大爷还是你大爷, —— 推出了 OpenAI o1 这个大模型。

那 OpenAI o1 到底是何方神圣?

它可是 OpenAI 在 2024 年 9 月 12 号新鲜出炉的,主要就是专门搞那些复杂任务推理的,像那种竞赛级别的编程难题、奥赛级别的数学问题啥的,对它来说都不在话下。

从技术角度讲, OpenAI o1在训练的时候,它通过强化学习把思维链不断完善,还把策略优化得妥妥当当。

比如说,能把错误找出来并改正,把复杂的步骤拆得简简单单的,这个方法不行就马上换一个。

到了推理阶段,它在给用户看的 COT 之外,还藏着一个更深的内在思维链,就好像给 COT 玩了个套娃,所以推理的时间就变长了。

而且,OpenAI 一直坚持他们那个 Scaling Law,训练和测试的时间与性能之间就跟对数线性关系似的。

实力强到逆天

再说说它的实力有多恐怖吧。

跟 GPT4 - o 比,那差距简直是断崖式的。

在那些最难搞的数学、代码、物理、化学、生物的 benchmark 上,它把 GPT4 - o 远远甩在身后。

在全美高中生数学竞赛 AIME 里,o1 能拿到 74 分,GPT4 - o 才 12 分。

要是采样 1000 次再结合 reward model 加权投票,它能到 93 分,能在全国排进前 500 名,都超过 USA Mathematical Olympiad 的晋级分数线了。

在 GPQA 测试中,跟一群相关领域的博士专家 PK,o1 在 GPQA - diamond questions 上都能把专家们比下去。

在视觉感知能力方面,o1 在 MMMU 上的分数达到了 78.2%,是第一个能和人类专家媲美的模型。

还有,OpenAI 在 o1 的基础上把模型的代码能力又加强了,搞出个 o1 - IOI 去参加 2024 年的国际奥林匹克信息竞赛。

在和人类选手一样的条件下,o1 - IOI 成绩超级棒,都超过金牌线了。在 CodeForce 上,它也打出了 1807 分的高分。

领域表现有偏重

不过,在不同领域对比的时候发现,o1 在理工科方面那是把 GPT4 - o 秒得渣都不剩,像编程、数据分析、数学题这些,可在写作和文本编辑方面,它和 GPT4 - o 就差不多了,有点像个偏科的理工科学霸。

安全方面很靠谱

在安全这块,o1 也是相当厉害。

它把那些要遵守的准则都融合到内在 COT 里了,能高效又稳健地让模型学会人类喜欢的价值和原则,不管是内部还是外部的安全 benchmark,o1 都能达到超高的水平。

为啥藏起思维过程

那为啥 OpenAI o1 要把 internal COT 藏起来不让用户看呢?

OpenAI 说主要是为了用户体验和安全。这隐藏的思维链能给监控模型带来特别的机会,能让他们知道模型在想啥。

但又不想让那些不太好的思维链直接展示给用户,而且可能也不想别人把它的内在思维过程提炼出来当训练数据。

OpenAI o1 这次发布,更新了 Scaling law 范式,在 data/model size/computation 之外,又多了个 inference time compute。

这可让好多领域的人都兴奋坏了,做 CoT、RL、Long context、推理加速、agent、攻防、prompt engineer、Synthetic data 这些领域的小伙伴都感觉有新机会了。

不过,OpenAI o1 也不是十全十美的,它的写作能力有点下降,处理一些简单问题的时候也有点小毛病,像数数字母啦、比较简单数字大小之类的。

但这都不影响它开启大模型领域新篇章的脚步。

真心希望国内的相关企业和研究者们能赶紧跟上,在大模型领域搞出点大动静来。

本文链接:https://openai-o1.cc/chatgpt/535.html

OpenAI-o1OpenAI o1OpenAI01chatgpt o1o1-minio1-previewOpenAI o1 miniOpenAI o1 previewOpenAI o1官网OpenAI o1官网入口OpenAI o1地址OpenAI o1中文版openai o1模型简介

相关文章

网友评论