1. 首页 >> ChatGPT教程 >>

ChatGPT是甚么?大语言模型(LLM)的本质(万字干货)

本文内容是由史蒂芬·沃尔弗拉姆(Stephen Wolfram)所写,我这边为方便大家浏览,做了一些归纳和总结。
本文对ChatGPT原理的本质做了比较偏技术利用层面的解读,主要从模型、神经网络、机器学习、神经网络训练、ChatGPT工作原理和ChatGPT的作用进行深度说明,虽然文中涵盖了很多偏技术的概念,但是整理结构或者比较清晰,你不需要对每个技术概念都理解,读完以后你会对ChatGPT的原理和大语言模型(LLM)的本质有更清晰的概念和认知。
史蒂芬·沃尔弗拉姆(Stephen Wolfram)是英、美籍 计算机科学家,物理学家,商人 。他由于计算机科学、数学和理论物理学杰出的贡献而闻名。《一种新科学》一书的作者、Mathematica的首席设计师,设计软件利用和沃尔弗拉姆阿尔法计算知识引擎、被任命为美国数学协会的首席研究员。
我已将内容按章节进行归纳和总结,点击每章节名称查看详细内容 ↓↓
前言:通过一个个词添加生成像人类书写的文本
ChatGPT可以自动生成一些表面上看起来像人类书写文本的东西,乃至超出人类。
ChatGPT 是一个人工智能模型,可以查找和匹配含义类似的内容,从而生成一个可能符合语境的单词排名列表和对应的几率。这类匹配方式类似于在数十亿页的文本中扫描,但不是基于文字文本,而是基于类似含义的匹配。
第一章:几率从何而来?
ChatGPT根据几率选择下一个词,通过上一个词,预测下一个词,在排队组合的规则下,选择一个出现可能性最大的词。
通过查看大量的英语文本语料库(比如几百万本书,总共有几千亿个单词),我们可以估计每一个单词的出现频率。使用它我们可以开始生成“句子”,其中每一个词都是随机独立挑选的,其出现在语料库中的几率相同。
在网络爬行中可能有几千亿个单词;在已数字化的书籍中,可能还有 1000 亿字。但是对 40,000 个经常使用词,即便是 2-gram 的可能数量也已是 16 亿——而 3-gram 的可能数量是 60 万亿。所以我们没法从现有的文本中估计所有这些的几率。那该怎样办呢?最重要的想法就是建立模型。
第二章:甚么是模型?
模型就是通过某种数学函数表达式来计算答案,而不是仅仅丈量和记住每一个案例。
ChatGPT的目标是建立一个类人任务模型,即我们通过从函数表达式中得到的结果与人类所说的一致,那末我们就有了一个“好模型”。
但是如何才能更像人类呢,这个是人表达感受或视觉感受问题,如果是对蜜蜂、章鱼来讲,会完全不通,这是我们就需要有一个关于人类做事的数学理论模型,例如Reward 模型。
第三章:“神经网络”使模型工作
神经网络是在 1940 年代发明的——以一种非常接近它们今天使用的情势——可以被认为是大脑工作的简化版。
在人类大脑中,大约有 1000 亿个神经元(神经细胞),每一个神经元每秒都能产生多达一千次的电脉冲。任何给定神经元会不会在给定时刻产生电脉冲取决于它从其他神经元接收到甚么脉冲——区别的连接产生区别的“权重”。
神经网络不管输入甚么都会以与人类一致的方式产生答案,这不是基于第一原则推导出来的,但在某些领域是有用的,并且能够类比人类的做事方式。
第四章:机器学习和神经网络的训练
神经网络训练本质上,找到使神经网络成功重现我们给出的示例的权重。然后依托神经网络以“公道”的方式“插入”(或“概括”)这些示例“之间”。
神经网络训练通过调剂权重来重现功能,每次根据与目标的距离来更新权重。
为了找出“我们有多远”,我们计算通常称为“损失函数”(或有时称为“本钱函数”)的东西。
用神经网络解决复杂问题比简单问题容易,由于权重变量多造成高维空间,多方向可寻到最小值,而变量少易堕入局部最低点,找不到“前途”。
第五章:神经网络训练的实践与知识
神经网络是一门艺术,而不是一门科学,它主要依托反复实验和经验积累。
神经网络的架构、数据、训练方法等都有一些共同的规律,但也有很多我们没法理解的现象。
神经网络之所以能够适用于各种“类人任务”,是由于它们可以捕获人类思惟的普遍特点。
神经网络训练中损失会到达恒定值,可能需改变网络架构。
学习曲线变平的时间因网络大小和数据量而异;大部份时间花在GPU的数字数组操作上;未来可能出现更好的训练方法和计算硬件;目前关键的限制是顺序训练和计算与内存分离,若如大脑般每一个神经元都是活跃计算元素,则训练可能更有效力。
目前类似ChatGPT之类的功能,仿佛让人印象深入,如果继续训练出一个足够强大的神经网络,那末它终究将“无所不能”!
第六章:ChatGPT的原理与训练
ChatGPT是一个专门为处理语言而设置的神经网络。它最明显的特点是一种称为“transforms”的神经网络架构。
在某种程度上,在像 ChatGPT 这样的神经网络中,有可能捕捉到人类大脑在生成语言时所做的事情的本质。
神经网络的基本训练进程是提供示例,调剂权重以减少误差。每次操作,每一个权重最少略有变化,许多权重需要处理。使用GPU可以并行计算大指示例结果,但当前方法基本上需要批次更新权重。神经网络的权重更新是通过反向传播算法实现的。
神经网络训练十分消耗计算资源,需要多个GPU并行完成,如果我们需要大约n 个单词的训练数据来设置这些权重,那末根据我们上面所说的,我们可以得出结论,我们将需要大约n 2 个计算步骤来进行网络训练。
第七章:真正让 ChatGPT 发挥作用的是甚么?
语言在基本层面上比看起来要简单很多。这意味着 ChatGPT——即便具有终究简单的神经网络结构——也能够成功地“捕捉到”人类语言的本质及其背后的思想。另外,在其训练中,ChatGPT 以某种方式“隐含地发现”了语言(和思惟)中的任何规律性使这成为可能。
人们可以将 ChatGPT 视为在接受来自网络等数十亿(可能成心义的)句子的训练后隐含地“开发了一种理论”。
ChatGPT 利用于底层计算语言会使得它成为一个不但可以“生成公道的文本”的系统,而且可以期望解决任何可以解决的问题,即该文本会不会实际上对世界做出了“正确”的陈说——或它应当谈论的任何内容。
第八章:那末……ChatGPT 在做甚么,它为何起作用?
ChatGPT 的基本概念在某种程度上相当简单。历来自网络、书籍等的大量人工文本样本开始。然后训练神经网络生成“像这样”的文本。特别是,让它能够从“提示”开始,然后继续使用“就像它被训练的那样”的文本。
ChatGPT目前能够做到的事是使人亢奋的,即通过大量简单的计算元素可以做出非凡和意想不到的事情,它也可能为我们提供了 2000 年来最好的动力,让我们更好地理解人类的核心特点(即人类语言及其背后的思惟进程)的基本特点和原则是甚么。

chatgpt中文版 http://chatgpt.guige.xyz 

桂,哥,网,络www.GuIgege.cn

本文来源于chatgptplus账号购买平台,转载请注明出处:https://chatgpt.guigege.cn/jiaocheng/29374.html 咨询请加VX:muhuanidc

联系我们

在线咨询:点击这里给我发消息

微信号:muhuanidc

工作日:9:30-22:30

X

截屏,微信识别二维码

微信号:muhuanidc

(点击微信号复制,添加好友)

打开微信

微信号已复制,请打开微信添加咨询详情!