OpenAI的王炸： OpenAI o1 到底是何方神圣？

chatgpt2024-09-14 07:13:4696

自从上半年OpenAI发布Sora演示视频惊艳了全世界后，后面虽然都没有发布什么颠覆性的产品，一直不温不火，OpenAI 的乏力似乎是肉眼可见。

Sora 的无限期跳票，GPT4o 的演示效果也没有被很好复现，再加上宫斗后遗症以及不少人才流失，Claude/Google/xAI 等一众竞争对手也从难以望其项背追赶到似乎触手可及。

但是OpenAI 用一颗行动的心证明了，你大爷还是你大爷， —— 推出了 OpenAI o1 这个大模型。

那 OpenAI o1 到底是何方神圣？

它可是 OpenAI 在 2024 年 9 月 12 号新鲜出炉的，主要就是专门搞那些复杂任务推理的，像那种竞赛级别的编程难题、奥赛级别的数学问题啥的，对它来说都不在话下。

从技术角度讲， OpenAI o1在训练的时候，它通过强化学习把思维链不断完善，还把策略优化得妥妥当当。

比如说，能把错误找出来并改正，把复杂的步骤拆得简简单单的，这个方法不行就马上换一个。

到了推理阶段，它在给用户看的 COT 之外，还藏着一个更深的内在思维链，就好像给 COT 玩了个套娃，所以推理的时间就变长了。

而且，OpenAI 一直坚持他们那个 Scaling Law，训练和测试的时间与性能之间就跟对数线性关系似的。

实力强到逆天

再说说它的实力有多恐怖吧。

跟 GPT4 - o 比，那差距简直是断崖式的。

在那些最难搞的数学、代码、物理、化学、生物的 benchmark 上，它把 GPT4 - o 远远甩在身后。

在全美高中生数学竞赛 AIME 里，o1 能拿到 74 分，GPT4 - o 才 12 分。

要是采样 1000 次再结合 reward model 加权投票，它能到 93 分，能在全国排进前 500 名，都超过 USA Mathematical Olympiad 的晋级分数线了。

在 GPQA 测试中，跟一群相关领域的博士专家 PK，o1 在 GPQA - diamond questions 上都能把专家们比下去。

在视觉感知能力方面，o1 在 MMMU 上的分数达到了 78.2%，是第一个能和人类专家媲美的模型。

还有，OpenAI 在 o1 的基础上把模型的代码能力又加强了，搞出个 o1 - IOI 去参加 2024 年的国际奥林匹克信息竞赛。

在和人类选手一样的条件下，o1 - IOI 成绩超级棒，都超过金牌线了。在 CodeForce 上，它也打出了 1807 分的高分。

领域表现有偏重

不过，在不同领域对比的时候发现，o1 在理工科方面那是把 GPT4 - o 秒得渣都不剩，像编程、数据分析、数学题这些，可在写作和文本编辑方面，它和 GPT4 - o 就差不多了，有点像个偏科的理工科学霸。

安全方面很靠谱

在安全这块，o1 也是相当厉害。

它把那些要遵守的准则都融合到内在 COT 里了，能高效又稳健地让模型学会人类喜欢的价值和原则，不管是内部还是外部的安全 benchmark，o1 都能达到超高的水平。

为啥藏起思维过程

那为啥 OpenAI o1 要把 internal COT 藏起来不让用户看呢？

OpenAI 说主要是为了用户体验和安全。这隐藏的思维链能给监控模型带来特别的机会，能让他们知道模型在想啥。

但又不想让那些不太好的思维链直接展示给用户，而且可能也不想别人把它的内在思维过程提炼出来当训练数据。

OpenAI o1 这次发布，更新了 Scaling law 范式，在 data/model size/computation 之外，又多了个 inference time compute。

这可让好多领域的人都兴奋坏了，做 CoT、RL、Long context、推理加速、agent、攻防、prompt engineer、Synthetic data 这些领域的小伙伴都感觉有新机会了。

不过，OpenAI o1 也不是十全十美的，它的写作能力有点下降，处理一些简单问题的时候也有点小毛病，像数数字母啦、比较简单数字大小之类的。

但这都不影响它开启大模型领域新篇章的脚步。

真心希望国内的相关企业和研究者们能赶紧跟上，在大模型领域搞出点大动静来。

OpenAI直播第9天,OPENAI o1模型API、实时API优化、偏好微调、Java SDK