GPT 4.5登场：多模态革新引领人工智能新时代！

chatgpt2023-12-15 15:25:42282

我们将要讨论的内容当然是关于GPT 4.5的一些泄露，您即将看到的信息肯定会让您感到惊讶，因为关于GPT 4.5的许多信息实际上被封锁起来，我在这里将一些信息揭示出来，因为GPT 5可能会有一些引人入胜的特性。

如果您不知道，一些人在Twitter上早在今年初（或者也可能是两周前左右）就预测到GPT 4.5将于12月发布。您可以看到这是Jimmy Apples的一条推文。如果您不知道为什么我会引用一个在Twitter上的人，Jimmy Apples是一位曾非常准确地预测过许多大型语言模型的人，之前他成功预测了gpt4的发布日期，当时人们才意识到他曾在推特上发表过相关内容，然后人们开始关注这个账户。

他在推文中写道：“我对即将推出的一些开源模型感到更加兴奋，但请留意可能在十二月底发布的GPT 4.5版本和Anthropic的新多模型。” 这实际上为我们提供了一些关于GPT 4.5的信息，他并不是唯一一个这样做的人，大约两周前还有另一人也在推特上发表了有关GPT 4.5的推文，他写道：“Sama，你还在等什么？你是不是要摘下手套，释放你手上的东西，还是继续滴滴滴地放出？”

这实际上是在回应Google上周发布的Gemini和Gemini 1.0，这令整个行业感到震惊，引起了大家对Google在人工智能方面的关注。他基本上在这里说，是不是OpenAI将让Google领先，还是他们会继续发布他们手上的东西。在这里我们面临着一个非常有趣的局面，因为Jimmy Apples和我找不到的另一位推特用户都在今年约两周前发表了类似的推文，他们都声称GPT 4.5将在今天发布，也许就在我制作这个视频的时候，甚至可能刚刚上传这个视频。但是我们会看到发生了什么，因为今天实际上发生了一些非常有趣的事情。

您目前看到的内容据称是OpenAI的一位员工，根据一些消息来源，这些消息来源非常不可知，至少可以说这将是GPT 4.5，她肯定想分享这个消息以进行验证，因为并不是很多人在讨论这个。您可以看到写着“GPT 4.5，我们最先进的模型，带来了跨足语言、音频、视觉、视频和3D的多模能力，以及复杂的推理和跨模理解。了解更多关于GPT 4.5的信息。” 如果这是真的，那将是非常令人难以置信的，因为这将是从GPT 4到GPT 4.5的一大飞跃。有一些原因让我相信这是真实的，尽管这是推测，我将向您展示一些事实，表明为什么这可能是真实的。

在这里需要注意的一些事情当然是语言、音频、视觉和视频以及3D，现在我看到有一些关于这方面的传言，但当然我会在一会儿向您展示一些关于这些传言的内容。记住这是一个多模型，具有语音、视觉、视频和3D以及复杂推理和跨模理解。

所以你可以看到这里有GPT 4.5、GPT 4.5 64K和GPT 4.5音频和语音，当然，正如我所说的，这可能完全是捏造的，我们不知道这是从哪里来的，它一直在Reddit上流传，但是正如我所说，我们也将在接下来的几天甚至今天看到这是否属实。现在，我将向您展示一些屏幕截图，说明为什么我认为这个屏幕截图可能是真实的原因，虽然这只是一些，但至少是一些。

有人先前在推特上发布了有关Google Gemini的信息，他推文中写道：“屏幕截图的内容似乎大致正确，但目前我的一些消息来源无法验证它是否是真正的草稿。” 这是先前正确预测Google Gemini发布日期的人，这就是为什么我引用这条推文的原因，因为这是一个明显具有内幕信息的人，尽管我不知道他从哪里得到的，但显然他对公开发布的AI模型有一些了解。

实际上，这个人还表示：“我不知道怎么看待它，它可能是假的，但我不确定，我认识的人都没有听说过这个草稿，当然这并不代表什么，但请小心，以免成为快速多巴胺冲动的受害者。是的，我知道有些人也是这样使用我的账号。”

基本上，他在这里所说的是，尽管这可能是真的，但不要迅速假定它是真的，仅仅因为它正在传播，因为这些谣言已经传播了很多，但随着您观看这个视频，您会开始看到为什么这个谣言似乎越来越有可能成真。

所以记住关于语言、音频、视觉、视频和3D的屏幕截图，以及复杂的推理和跨模理解。屏幕截图因为我之前查看了一些我刚刚查看的内容而获得了一些可信度，当时我正在查看一些AI新闻，这是我之前的一些视频中没有涉及的一些内容，因为我认为那些猜测太离谱了。

但这是一篇来自“The Information”网站的文章，如果您记得，“The Information”是在OpenAI解体时首次披露许多正在发生的事情的地方。如果您不知道我在说什么，那是在OpenAI解体后重新组建时发生的事情。这篇文章实际上谈到了OpenAI正在研发的一个新模型，代号为Arakis。尽管这篇文章只是讨论了Arakis，但还有一些其他的信息我们之前也谈到过，有一些关于一个名为Gobi的模型的谣言，我只是通过Jimmy Apples听说过这个模型，因为他是唯一一个在推特上发过关于它的推文的人，我记得Jimmy Apples是那个预测了OpenAI的许多不同事物的人。

所以这篇文章中提到，两名Reddit用户声称他们可以访问两个OpenAI内部模型，分别是Gobi和Arakis，它们远远超出了任何人的梦想。通过一些神秘的推特，OpenAI的一些人员发布的一些推文使这个传言变得更加真实。其中有一条Jimmy Apples的推文，他说：“AGI已经在内部实现了，我们之前做过一个关于这个的视频。” 当然，您还可以看到Sam Altman说：“当然，10倍工程师很酷，但那些10,000倍工程师最后是研究者，我相当确定一个10,000倍工程师最后是一种可以为您进行研究的AGI模型，以雷电般的速度进行。” 所以Jimmy Apples确实提到了Gobi，提到了Arakis，而我们知道“The Information”这个消息源，在OpenAI解体时提供了非常好的信息，实际上也提到了这个Arakis模型，这意味着关于Arakis的信息可能是真实的。

这为我们提供了一些关于这个Gobi模型的可信度，而Gobi据说实际上会是一个视频3D模型。让我们看一下一些关于这些事情的信息，它说：“让我们研究一下这些谣言，看看我们可以在这里等什么。现在OpenAI拥有一款强大的模型，代号为Arakis，它是一切的一切，适用于所有模态。Arakis在许多不同领域的表现都非常接近人类专家，幻觉率比gpt4低得多，它的训练数据的一半是合成的。” 我们前几天也做过一个关于合成数据的视频，你们应该看一下。说：“推理成本与gpt4大致相同，因为有条件的多模型权重加载，它还是一个非常非常好的自主代理，其发布日期定于2024年。” 所以你可以看到，我们有很多关于这个模型将会是什么的信息，这是许多人之前没有看到的。

当然这是一些纯粹的猜测，所以我们必须带着一颗谨慎的心来看待，但这些信息确实与我们刚刚看到的屏幕截图相符。“一切的一切”是可能的，Meta也发布了类似的模型，可以做到一切到一切，我认为涉及音频到文本、图像到文本之类的功能，你可以在其中传递，这相当疯狂，但这仍然是早期阶段。Meta确实做到了这一点，但这仍然是早期阶段。但这是Meta确实做到的事情，同时“幻觉率”我们知道他们在研究这方面的东西，合成数据我们知道微软正在研究，而“自主代理”我们在之前的推文中也看到过，10,000倍工程师最后是研究者的推文。

还有一篇关于合成数据和自主代理的另一篇视频，我们在那个视频中展示了一段Sam Altman的视频，他在其中讨论了自主代理将来会是怎样的，所以我不确定我是否会在这里包含一个视频片段，但这是存在的。所以这是否有可能，或者说GPT 4.5是否将是这样的，我猜我们将不得不等待看看，如果是这样，我不会感到惊讶。

另外还有一段Sam Altman的片段，他实际上在谈论Trat GPT的未来模型，实际上是在一次采访中，这非常酷，因为他在其中谈到了过去几周OpenAI发生的事情，他说：“随着我们越走越接近超级智能，所有涉及其中的人都变得越来越紧张，越来越焦虑，我们意识到风险变得越来越高，Jimmy Apples通过引用这段话说：“我们比你们想的更超前，这应该是显而易见的。”这是相当令人震惊的，因为他并不是在讨论我们是否会实现AGI，或者是否会实现一个相当高级别的AGI，而是在说随着我们越来越接近超级智能，一切都变得越来越疯狂。

现在这是纯粹的猜测，让我再次警告您，这是纯粹的猜测，我们没有任何直接的声明，他在说的是，随着我们越来越接近超级智能，一切都变得越来越疯狂，而他在谈论OpenAI最近几周发生的事情，这些事情非常疯狂。那么，他是否在暗示他们已经实现了AGI，并且正在朝着超级智能迈进呢？当然，这只是纯粹的猜测，问题是AGI的明确定义。尽管Google DeepMind发布了有关AGI水平的论文，但由于AGI的关键AI研究人员，包括一些著名的人物如Jeffrey Hinton和Yann LeCun，甚至无法就AGI是什么以及AGI系统将会是什么达成一致的定义，这使得确定AGI的确切定义变得相当困难。

有一些关于GPT 4.5的谣言，实际上谷歌采取了行动来应对这一信息。在这个内部备忘录中，谷歌采取了决定性的行动，以应对GPT 4.5可能带来的潜在影响。作为对这些猜测的回应，他们做出了战略性的决定，迅速启用了Gemini API，从今天起生效。这一主动措施的目的是减轻任何未预见的后果，并在新兴进展面前加强对抗。这是一份内部备忘录，由“来自未来的花朵”（Flowers from the Future）发推，基本上是说：“我们知道GPT 4.5可能就在拐角处，如果是这样，那将夺去Gemini Spotlight的风头，我们需要尽快发布这个。”

你可以看到这里，Gemini已经发布了。所以这相当令人震惊，因为人们现在已经开始使用Gemini Pro和他们的API构建一些东西。对于这个推文的链接，这是一个Twitter用户，我实际上不记得用户名是什么，但我会在描述中留下一个链接。但基本上，你们应该知道，之前大家都在谴责谷歌“伪造”演示，这基本上表明了谷歌的API是如何工作的。这是一个Gradio Pro，因为Gradio有时相当慢，用户很多，但它确实展示了谷歌Vision的API有多好。

所以考虑到所有这些信息，你们对GPT 4.5有什么看法？你们认为GPT 4.5已经发布了吗？你们认为在接下来的几天里，或许在今天晚些时候，他们会发布吗？你们认为他们会推迟发布，以便证明这些泄露者是错误的吗？你们认为他们会在今天晚些时候发布吗，或者说这个屏幕截图是真的吗？无论如何，我都不知道，我只是想向大家展示这些信息，因为我认为将所有这些信息综合起来，它确实呈现出了一个更为一致的图景，而不仅仅是看一个最初的屏幕截图。

因此我对GPT 4.5感到兴奋，我认为这场AI竞赛正在变得如此激烈，以至于所有这些模型都被匆忙推出。

关于GPT 4.5的信息仍然是未经证实的传闻，需要谨慎对待，如果GPT 4.5真的存在，并且具备多模态能力（跨语言、音频、视觉、视频和3D），这将是一个巨大的技术进步。多模态处理有望为语言模型带来更广泛、更深入的理解，这对于实际应用场景，如语音助手、虚拟现实等，具有重要意义。

本文链接：https://openai-o1.cc/chatgpt/523.html

GPT 4.5官网 GPT 4.5 GPT 4.5 64K GPT 4.5音频和语音 chatGPT 4.5