openai o1官网

ChatGPT:比你想象的更笨?

chatgpt2023-09-10 22:16:08155
2023年对于人工智能来说是重要的一年。尤其是,这是生成人工智能的一个真正的里程碑。随着基于 AI 的图像创作工具(例如Stable Diffusion或Midjourney)的兴起,当然还有ChatGPT的爆炸式增长,看起来我们刚刚登上了一列火车,它将在未来几年将我们带到一个截然不同的世界。
但我们准备好迎接这个新世界了吗?我们知道我们在搞什么吗?您真的知道 ChatGPT 是什么、为什么它有效以及为什么有时......它不能很好地工作吗?
在这篇小文章中,让我们稍微整理一下,并回顾一下我们对这些机器学习算法(尤其是 ChatGPT)的一些非常常见的问题和误解)

我听说 ChatGPT 和我们一样“思考”。但机器无法思考,不是吗?
计算机无法思考和推理,它没有自己的思想和感情来对情况做出反应!但是,多年来,算法(特别是基于机器学习的算法)已经非常擅长伪造智能和计算我们作为人类喜欢将其解释为推理的输出。
尽管如此,在底层,像 ChatGPT 这样的机器学习算法是一个非常有限的东西:它只是为了近似一个复杂的数学函数。
基本上,它只是所有这些数学问题的一个更高级的版本,其中你有一组点,并且你尝试找到最适合的线来代表主要趋势:
不同的是,在这里,您不是控制单条线的斜率,而是有数百万个小按钮,称为权重,您可以转动和调整它们,以便创建一个能够将大多数输入转换为某种“可行”答案的系统:
当然,拥有如此庞大的权重网络的一个真正重大后果是最终的“调整”算法极难解释。事实上,我们并不真正知道机器如何转换输入,我们只知道它通常做得很好。这被称为黑匣子综合症(因为我们有一种不透明的盒子掩盖了我们理解的所有内部过程)。
注意:这个问题绝对是人工智能中的一个大问题——所以如果你好奇并想了解更多信息,请随时给我留言,我将就该特定主题撰写另一篇文章!:)
 ChatGPT 会写入文本。这怎么可能是一个数学函数?
在 ChatGPT 的特定情况下,底层算法使用其复杂的数学公式来尝试猜测给定文本中最好的下一个单词是什么。(OpenAI 实际上在这个基本算法中添加了一些额外的闪亮功能,使其成为一个更好的聊天机器人,而不仅仅是一个文本生成系统,但这就是 ChatGPT 背后的核心思想。)
它的输入是一组单词,其输出是一个可能的匹配单词,可以以合理的方式继续这个小文本。
乍一看可能听起来很奇怪,但猜测一个单词实际上是获得相当通用和多用途模型的好方法,因为您可以通过添加一些上下文改进以各种方式使用此基本文本生成原理,例如更像聊天机器人的结果。这个两步细化过程就是我们所说的“专业化基础模型”。
为了知道如何选择正确的单词,模型需要接受大量参考文本的训练——这就是我们所说的训练数据集。所有这些文本实际上都是数十亿个单词集,所以基本上,通过将其作为输入数据提供给机器,并将其猜测的内容与文本中实际的下一个单词进行比较,我们可以知道算法有多远,并尝试并通过重新调整权重来提高其性能。
这就是反向传播步骤,您可以使用误差量作为反馈来重新调整系统。通过一遍又一遍地这样做,您会逐渐获得较低的错误,因此机器会创建与您提供的初始数据更加同步的输出。
同样重要的是要了解,ChatGPT 不仅仅会记住所有这些文本 - 当它继续一个句子时,它不会只是尝试在参考文本中找到该块以复制粘贴其余部分。从某种程度上来说,它的迭代改进是为了分析和提取一些语言概念,以便它能够生成看起来不太不可能的全新句子。
例如,假设我们的人工智能收到以下单词输入:“老鼠被……吃掉了”。对我们来说,一个非常自然的选择是用“猫”这个词来完成。
事实上,您会在网络上找到这句话的大量示例 - 这意味着 ChatGPT 肯定已经阅读了这串单词数百次,因此很有可能为此输入输出“cat”。
但它也可能输出更令人惊讶的东西,例如“yak”。当然,“老鼠被牦牛吃掉”这种说法并不常见,但还是很有道理的。而且它在 Google 上不存在!;)
换句话说,该模型学习在各个级别连接单词,经过足够的迭代后,它能够成功生成可信的文本,因为它经过训练可以输出越来越少的不可能的句子。
因此,这个训练阶段是最重要的阶段,它将最初的数据堆转变为推理的模仿,并转变为实际可用的工具——最终的人工智能算法。
一旦我们认为算法不是太频繁地错误,我们就可以停止这个训练阶段,我们就得到了经过良好调整的按钮的大系统,它近似于一个能够猜测句子中最好的下一个单词的数学函数,从而生成文本。
如果像 ChatGPT 这样的人工智能纯粹是数学——它一定总是正确的,对吗?
没有!尽管经过数周的训练,并且仔细阅读了网络上数十亿的参考文本,ChatGPT 还远非完美无缺。当然,它不会犯语法错误。但它仍然不思考或理解它所写的内容——ChatGPT 所做的只是正确地链接单词,以获得相对于其训练数据集最有可能的句子。
想一想 - 早些时候,我们说过像 ChatGPT 这样的系统想要“将大多数输入转化为某种程度上可行的答案”。这里需要记住两个关键想法:
“可行”答案的概念
事实上它只适用于“大多数”输入
“可行”的答案
“可行”的答案只是意味着机器产生的输出与初始数据集中存在的输出类型相对应。这自然意味着,如果这个初始数据集在某种程度上存在偏差,机器将被调整以吐出这些有偏差的答案。
由于机器学习算法无法像我们一样感知外部世界,因此它对外部环境的唯一了解就是我们人类提供的数据。因此,输入数据中的不准确、事实缺失或信息不完整越多,最终的人工智能就越不可用。
您可能听说过人工智能的所有这些不良后果,其中某些图像识别模型错误地指控某些人犯罪,或者无法识别照片中的某人 - 这是因为训练期间使用的初始数据集有偏见且不完整。
这很重要,因为这意味着,如果我们在不了解其局限性和“猜测工作”的情况下盲目地使用人工智能作为决策工具,我们可能会遗憾地加剧我们社会中已经存在的一些偏见,并进一步夸大不平等……
这就是为什么我们真正了解算法是如何制作的,以及它们是如何被训练的——特别是由谁以及用什么数据进行训练——这一点至关重要,因为这将直接塑造算法对世界的愿景。
“最多”投入
该机器适用于“大多数”情况,但并非全部。
这是因为,机器学习系统的核心依赖于随机性——通常,这就是为什么 ChatGPT 很少针对相同的输入连续两次给出完全相同的段落。
这种可变性再次来自初始数据集——保持松散、模糊或实验性是算法经常获得好的答案并尽可能匹配这些参考输出的最佳方式。我们称之为以准确性换取通用性。
但这也意味着像 ChatGPT 这样的人工智能可能会犯错误,因为这种始终正确的目标有时会导致算法匆忙拼凑虚假事实,甚至学习错误的连接,而这只是其训练数据的副作用。
而且由于其训练中没有任何内容意味着怀疑或评估准确性,ChatGPT 听起来总是对其答案完全有信心,无论它们有多么疯狂。毕竟,ChatGPT 没有对错之分,它只是一个复杂的数学函数——并且在给定大量参考文献的情况下,它只输出最可能的下一个单词。
这个问题有时被称为人工智能“幻觉”——因为该算法基本上炮制出一个完全错误的想法,然后像其他所有问题一样将其呈现为铁证如山。
这意味着在使用 ChatGPT 时,您应该始终非常小心它所冒充的事实,不要被漂亮的文字和优美的语法所欺骗。仅仅因为没有任何拼写错误并不意味着没有更严重的错误......
但是,为什么当我尝试使用 ChatGPT 时效果那么好呢?
ChatGPT 实际上值得大惊小怪的主要原因之一是因为它不仅仅是一个文本生成模型。事实上,ChatGPT 是一个围绕称为 GPT 3.5 的底层模型(至少对于默认的 ChatGPT 版本)的进化包装器,它是真正的猜词器。
GPT 3.5 模型仅用于根据概率生成文本,就其本身而言,它确实没有那么好。例如,从一段关于 1492 年和美国的段落开始,总会以一段关于某人发现这片大陆的小文字结束,无论这个人是谁,也不管它有多么明显的虚假
更糟糕的是,默认情况下,基本 GPT 模型绝对没有类似问答聊天机器人的对话设置的概念。它只是喜欢继续发短信。因此,如果您在输入字段中输入一个问题,它可能会回答,但它也可能决定......只是问更多问题:
现在让我们讨论 OpenAI 用于提高 ChatGPT 性能的三种技术。
预提示
解决这个问题的方法之一是使用预提示:这是在任何实际用户输入之前放置的一小段文本,尝试告诉模型它应该是什么样子,以及当前的上下文是什么。这就是 ChatGPT 能够提问和回答的原因:它被告知是一个对话代理——我们赋予它一个角色,一个角色,这将它的猜词概率调整到更相关的方向。
对于 ChatGPT 来说,这个预先提示仍然是一个秘密,尽管很明显 OpenAI 正在对其进行更新,以随着时间的推移进一步增强结果。这种预先提示在人工智能始终表现得友善、避免对政治或宗教等敏感话题或保持中立方面发挥了重要作用。
但这个预先提示并不是灵丹妙药,因为 GPT 文本生成模型从未真正接受过回答问题的训练。因此,另一种使 ChatGPT 更有用的技术就是我们所说的微调。
微调
微调是指采用已经训练过的相当通用的模型(例如 GPT),并使用更专业的输入数据对特定任务进行再训练——例如,ChatGPT 中的聊天和讨论。
更准确地说,在这里,OpenAI 实际上进行了人类监督的微调,这意味着他们要求真人写出各种问题的最佳答案(至少是那些人认为的最佳答案),然后训练模型以匹配这些问题答案,而不是它默认生成的答案。
通过人类反馈进行强化学习
最后,为了进一步提高 ChatGPT 的性能,该团队添加了第三层改进:利用人类反馈进行强化学习。
简而言之,我们的想法是提出一系列问题,并要求 ChatGPT 为每个问题生成多个答案。然后,OpenAI 要求人们评估这些答案的准确性、相关性或有趣程度。因此,与上一步相反,人类不必编写任何内容 - 他们只需对每个问题的答案进行比较和分类,从最好到最差。
然后可以将其重新注入模型中,以增加输出人类评估者认为“好”或“有趣”的答案的机会,并反过来避免无用、不适当甚至令人震惊的结果。
因此,第三阶段是向 ChatGPT 添加一些审查制度,以获得更普遍接受的聊天机器人……但值得记住的是,这个“临时道德闪现课程”只是一组人类评估者以其自己的偏见和信念。
无论如何,通过结合这三种技术,可以获得比普通基础模型更强大、更有趣且更受人尊敬的模型。尽管如此,这些后处理改进并没有改变机器的固有性质,也不能防止所有错误。
但是,ChatGPT 不能从错误中吸取教训吗?它能进化并变得更好吗?
从大规模来看,ChatGPT 只是大型语言模型 (LLM) 的最新版本之一。而其底层文本生成模型GPT 3.5,是之前GPT算法的新版本。每一代,OpenAI 都会通过增加可调整权重的数量来增加模型的规模,并为模型提供更多的训练数据,以尝试扩展其对世界的了解。
所以,从这个意义上说,你可以说法学硕士作为一个整体在发展和进步。
但 2022 年 11 月公开的基于 GPT 3.5 的 ChatGPT 算法无法进化和改变。因为尽管我们使用各种措辞试图让人们认为人工“智能”与我们相似,但机器学习算法和我们的大脑之间存在根本区别:它们不具有大脑可塑性。
一旦停止训练,模型就像神经网络的固定照片——它的权重、连接和概率都是一成不变的。而且由于这个人工智能没有传感器来获取外部刺激,而且它对世界的整个视野都是由它的训练数据决定的,所以它基本上是在真空中工作。(而在默认的ChatGPT版本的情况下,这个数据可以追溯到2021年9月,所以它的世界基本上停在了这个日期。)
这就是为什么如果您要求 ChatGPT 告诉您离您最近的电影院的可用电影,它会告诉您它无法访问现实世界的数据,并建议您宁愿咨询实际网站来获取信息:
但在更阴险的情况下,您可能会认为 ChatGPT 正在为您带来真实的信息,而事实上它只是幻觉,与现实世界几乎没有联系。一个著名的例子是,如果在对话过程中,您要求它提供科学文章的参考文献 - 在这里,ChatGPT 不会告诉您它不能进行网络搜索并告诉您自己找到它们,而是通常更愿意发明完全虚假的来源,看起来真实,但实际上并不存在!
所以ChatGPT无法持续学习、逐步提高——它无法像人脑一样进化,重新适应外部事件或了解最新消息!这也意味着它从初始数据集中学到的所有错误或不准确之处都将保留,直到有人决定训练和发布新版本......
......因为,在所有闪亮的聊天机器人和所有在其之上构建新工具的新初创公司之外,ChatGPT 仍然只是一个试图猜测正确单词的大型旧数学函数!

总的来说
我希望您喜欢这篇文章,并且您了解了一些有关 ChatGPT 的知识,或者得到了您问题的一些答案。当然,如果您还有其他意见,或者您对人工智能相关文章有其他想法希望我写,请随时发表评论!


如果您想加入【AIGC&ChatGPT变现实验室】欢迎加我助理,注明:公众号加群,拉您进群。

扫码关注更多精彩
END


本文链接:https://openai-o1.cc/chatgpt/451.html

相关文章

网友评论