GPT大模型掀起AI浪潮！一文看懂毫末自动驾驶生成式大模型DriveGPT-chatgptplus账号购买平台

自动驾驶大模型到底该如何落地车端？

chatgpt中文版 http://chatgpt.guige.xyz

自动驾驶大模型是不是是“越大越好”？

用大模型实现数据闭环，是不是本钱更高？

自动驾驶大模型能带来哪些实际利用价值？

用大模型实现端到端自动驾驶，技术线路会不会可行？

... ...

带着这些好奇和疑问

让我们从 ChatGPT 入手，完全了解

毫末自动驾驶生成式大模型 DriveGPT

雪湖·海若的技术原理和产业价值吧！

大模型定义 AI 进化新范式！

Transformer 底层逻辑强力赋能

奇点时刻，是未来学家库兹韦尔提出的一个概念，是指机器智能到达并超过人类智能的那个时间点。库兹韦尔曾预测“技术奇点时刻将在2029年到来，届时机器智能将赶超人类水平。”

但现实进展常常超乎理论家的预期。随着 ChatGPT 横空出世，其优于绝大多数人类的语言表达和文本生成能力，让人们纷纭惊呼一个能人工智能时期的“奇点”来临，以致于众多 AI 科学家担心人工智能将会失控而给人类文明带来风险。

但与此同时，以 ChatGPT 为代表的大语言模型又为数字经济产业带来全新机遇。AI 技术将从一种“小作坊”级生产工具变成“工业化”级的生产力工具，为各行各业带来生产方式的革命性变化。而具体到个人而言，GPT 这类大语言模型（Large Language Model）将提供给我们每一个人本来非常昂贵的专家知识、行业经验和强大的策略、创意和分析、归纳的能力，成为每一个人的强大生产力工具，完全改变我们的生产协作方式。

那末，这一切是如何产生的呢？让我们以风行全球的大模型利用 ChatGPT 为例，来深入这场大模型带来的技术变革。

首先，ChatGPT 是一种基于 Transformer 架构和无监督预训练技术所产生的对话生成式模型，具有自然语言理解、文本生成、对话生成等功能，实质就是一个聊天机器人，可以实现智能语音助手、知识问答系统、各类文本的生成等功能。

ChatGPT 的底层技术是 OpenAI 推出的 GPT 自然语言模型。从2018年至今，OpenAI 一共推出了4代 GPT，而 ChatGPT 就是在 GPT⑶ 的升级版 GPT⑶.5 的基础上，通过专门的微调、优化所做出来的用于自然语言对话的产品。

GPT 的全称是“Generative Pre-trained Transformer”，中文直译为“生成式预训练转换器”，基本原理就是：模型会使用数十亿到千亿范围的参数，对从互联网获得的庞大的语料库文本进行打散、标记、学习，从而构建起一个复杂的预测模型，然后根据这个预测模型，判断一个单词在规定情境下应当接哪个单词，终究不断将一个个单词串起来，构成一段话或一篇文章。

GPT 的基础结构是 Transformer，这是谷歌在2017年《Attention is all you need》论文中提出的一种模型架构，它是行业第一个完全依赖于自注意力机制（Self-attention）来计算其输入和输出表示的转换模型。 Transformer 架构的优点是能够处理任意长度的序列数据，这也是 Transformer 适用于自然语言处应当中长序列文本生成的关键。

第二，ChatGPT 采取了无监督预训练技术，可以自动地从大量无标注数据中学习到辞汇、语法、语义等语言的规律和特点，从而提高模型的泛化能力和表现力，从而在后续的微调阶段中更加准确地预测和生成自然语言文本。

第三，微调（Fine-tune）是 ChatGPT 实现对话生成的关键技术之一，其原理是通过在有标注数据上进行有监督训练，从而使模型适应特定任务和场景。微调技术通常采取基于梯度降落的优化算法，不断地调剂模型的权重和偏置，以最小化损失函数来提高模型的表现能力。简单来讲，无监督预训练学习可让模型学会的更多、更泛，而微调可使得对具体问题的回答更专业、更准确。

第四，嘉奖模型（Reward Model）和人类反馈的强化学习（Human Feedback Reinforcement Learning）。嘉奖模型是通过人工标注的排序结果，训练出一种对应的嘉奖机制，用来预测用户更喜欢哪个模型的输出结果。嘉奖模型又将用于训练强化学习（Reinforcement Learning）算法。在强化学习中，一个智能体通过与环境互动来学习，智能体通过视察环境的状态并根据嘉奖信号来采取行动，目标是最大化积累嘉奖。ChatGPT 在最后的阶段，就是利用基于人类偏好反馈的嘉奖模型，再用强化学习的方式进行训练，终究微调优化全部模型。

从终究的效果来看，与传统的对话系统相比，ChatGPT 可以自动地从大量的语言数据中学习到语言的规律和特点，从而实现更加自然、流畅的对话生成，可以完成像文本撰写、数学运算、翻译、代码生成等任务，乃至能胜任高质量论文撰写、以优良成绩完成大学专业考试等复杂语言任务。

ChatGPT 的惊人表现，使得生成式大模型技术迅速从幕后走向前台，并火速引爆全球大模型开发热潮。LLM 大模型出现带给行业很大启示，那就是通过对海量多模态数据的大范围无监督学习，借助“预训练+微调”的方式，就能够完成各种复杂的自然语言任务。

现在大模型正在从文本、语音、视觉等单一模态智能向跨场景、多任务的多模态方向演进，AI 大模型在跨领域内容学习和能力获得方面实现了质的奔腾。这使得几近中美头部的互联网巨头和有一定能力的科技企业都在纷纭展开通用大模型的布局，而通用大模型也被认为将利用到金融、医疗、教育等各种垂直类行业，并展开商业化方向的探索。

现在，行业流传着这样一句话：之前所有的行业都可以用互联网的方式重做一遍，现在，所有的行业都可以用大模型重新做一遍。

那末，曾被誉为“人工智能皇冠上一颗璀璨明珠”的自动驾驶，会不会也能够使用大模型技术进行重塑和升级呢？答案是可以的。

毫末 DriveGPT 横空出世！

率先掀起自动驾驶行业变革

我们先来了解一下，自动驾驶为何要用 AI 大模型的方式来进行实现呢？

自动驾驶是一个复杂的行动系统，包括了 AI 所需要的感知、认知推理、决策、控制和履行的所有环节，技术难度极高，由于触及物理世界的风险，要求容错率极低，乃至要做到百分百的安全，对技术的能力边界要求会非常高。以传统深度学习小模型算法和人工规则的方式难以突破完全自动驾驶要求的能力瓶颈，现在基于大模型方式对自动驾驶感知、认知算法进行训练和车端部署，将使得端到端自动驾驶的目标有可能实现，并且会逐渐到达超过人类老司机水平的驾驶能力，终究实现无处不在的自动驾驶机器人，实现无处不在的机器智能移动。

那末，我们该怎样在自动驾驶领域引入 AI 大模型呢？毫末率先在行业中进行了探索。

毫末从创建之初，就定下“以数据驱动自动驾驶技术升级”的公司技术战略，以领先的人工智能技术和智能驾驶范围量产作为本身优势。在2021年底，毫末率先发布国内首个全栈自研的自动驾驶数据智能体系 MANA（雪湖），又在一年后的2022年底，建成国内自动驾驶行业最大的智算中心 MANA OASIS （雪湖·绿洲），每秒浮点运算到达67亿亿次。

在技术线路上，毫末早在2021年初就开始探索将 Transformer 大模型技术落地利用到自动驾驶产品当中，同样成为国内首家研发落地 BEV 感知技术的自动驾驶公司，并在2022年4月，率先在国内发布以“重感知”方式实现的城市 NOH 导航辅助驾驶产品。

2023年1月，基于大范围真实量产数据驱动的数据智能体系，以国内最大的自动驾驶智算中心作为基础设施，毫末在对 Transformer 大模型前沿探索的基础上，率先同时推出了视觉自监督大模型、3D 重建大模型、多模态互监督大模型、动态环境大模型、人驾无监督认知大模型等五个自动驾驶大模型，成为行业首个将 GPT 大模型技术援用到自动驾驶认知决策当中的自动驾驶公司。

2023年4月，第八届 HAO AI DAY 上，基于 GPT 大模型所具有的生成式、预训练、人类反馈强化学习等技术优势，毫末将五大模型进行统一升级，发布了行业首个自动驾驶生成式大模型 DriveGPT 雪湖·海若。

DriveGPT 的底层模型与 ChatGPT 一样，都采取了生成式预训练模型架构，使用了大范围无监督的数据进行初始模型的生成，也都采取了 Prompt 微调方式和 RLHF 人类反馈强化学习的方式进行模型效果的优化；两者的区别的地方在于，ChatGPT 输入输出的是自然语言的文本，而 DriveGPT 输入输出的分别是融会感知场景序列和生成的预测场景序列，双方利用的场景区别，ChatGPT 主要用于自然语言处理领域，而 DriveGPT 主要用于驾驶场景决策领域。

在自动驾驶认知决策中，DriveGPT 通过引入驾驶数据，使用 RLHF（人类反馈强化学习）技术，对自动驾驶认知决策模型进行延续优化，同时 DriveGPT 正在逐渐将感知大模型能力纳入其中，终究目标是实现端到端无人驾驶。

毫末 DriveGPT 底层模型一样是采取 GPT（Generative Pre-trained Transformer）生成式预训练大模型技术。GPT 的本质是不断求解下一个词（Token）出现的几率，DriveGPT 就是求解驾驶场景 Token 出现的几率，不断循环来生成自动驾驶场景未来 Token 序列。DriveGPT 的输入是感知融会后的 Token 序列，输出是自动驾驶场景 Token 序列，行将自动驾驶场景 Token 化，构成“Drive Language”，用于描写包括障碍物的状态、自车状态、车道线情况等某时刻的场景状态，终究完成自车的障碍物预测、决策规控和决策逻辑链的输出等任务。

DriveGPT 的实现方式同 ChatGPT 一样，都是采取人类反馈强化学习的方式进行迭代。首先会用 DriveGPT 最新模型（Active Model）对真实场景 Case 实现生成，产出多种场景序列结果，再用嘉奖反馈模型给这些结果进行打分排序，目标是把好的结果排上来，差的结果排下去，然后与初始模型（Pretrain-Model）的生成几率做比较，放大比分。最后通过强化学习的方式将参数再次更新到最新模型（Active Model）中，一直反复这个迭代进程。

其中，嘉奖反馈模型（Reward Model）的训练进程是独立的，使用带有偏序关系的 Pair 样本对来训练，这些样本对来自于接收 Case，毫末将与人类驾驶结果类似的模型结果作为正样本，与被接收轨迹类似的作为负样本，这样来构建偏序对集合，再利用 LTR（Learning To Rank）的思路去训练 Reward Model，进而得到一个打分模型。

同时，DriveGPT 还可以输出决策逻辑链，即在输入端提供 Prompts（提示语），根据提示输出含有决策逻辑链（Chain of Thought）的未来序列。毫末 CSS 自动驾驶场景库是 CoT 的重要输入，具有超过几十万个细颗粒度场景，将 Prompt 和完全决策进程的样本交给模型去学习，学到推理关系，从而将完全驾驶策略拆分为自动驾驶场景的动态辨认进程，完成可理解、可解释的推理逻辑链生成。

DriveGPT 的出现，从底层技术上颠覆了以往自动驾驶认知决策进程采取人工规则、小模型的实现方式，首次探索以数据驱动的大模型方式实现自动驾驶的计划、决策，终究为实现端到端自动驾驶提供可能。

极致性能，一次拉满！

当之无愧的划时期全能选手

当前，毫末 DriveGPT 实现了模型架构与参数范围的升级，参数范围到达1200亿，预训练阶段引入4700多万千米量产车驾驶数据，RLHF 阶段引入5万段人工精选的困难场景接收 Clips。同时，毫末正在将感知能力融入到 DriveGPT 大模型训练当中，构成一整套的端到端自动驾驶能力模型。DriveGPT 也将具有道路驾驶场景的理解和辨认、道路驾驶场景的重建与生成，和智能驾驶辅助、驾驶能力测评等能力。

在驾驶场景理解能力上，DriveGPT 对视觉感知任务做了全面升级，以恢复真实世界的三维结构和纹理散布为目标，实现对道路驾驶环境的三维结构、速度场和纹理散布的融会训练，可适配所有主流视觉感知任务。目前，毫末视觉感知训练数据集到达400万 Clips，感知性能提升20%。同时，毫末也在中国率先开始验证使用鱼眼相机代替超声波雷达进行测距，以满足停车要求。毫末把视觉 BEV 感知框架引入到了车端鱼眼相机，做到了在15米范围内到达30cm的丈量精度，2米内精度高于10cm的视觉精度效果。如果在停车场景使用纯视觉测距来取代超声波雷达，将进一步下降整体智驾本钱。

在驾驶场景辨认能力上，基于毫末 DriveGPT 所建立的 4D Clips 驾驶场景辨认方案，可使得单张图片的标注本钱降到0.5元，是目前行业平均本钱的1/10。毫末正在将图象帧及 4D Clips 自动驾驶场景辨认服务向行业开放使用，这将大幅下降行业使用数据的本钱，提高数据质量。

在场景重建和生成能力上，DriveGPT 可以支持单趟或多趟的纯视觉 NeRF 三维重建和数据生成，从而可以构造大量自动驾驶的 Corner Cases，为行业提供更低本钱、更大范围的自动驾驶能力测试的仿真环境，帮助行业火伴快速提升自动驾驶技术能力。

在智能驾驶辅助能力上，DriveGPT 终究目标是实现端到端无人驾驶，分为感知和认知两阶段。当前的感知输出是 BEV 图，而认知则是把 BEV 感知结果作为输入进行驾驶决策训练。但是 BEV 感知结果会丢失很多信息，限制了驾驶决策的上限。而 DriveGPT 颠覆传统的感知逻辑，通过构建统一的空间计算 Backbone 实现通用视觉感知能力，在一个大模型中同时完成图片纹理、三维结构深度信息、实体语义信息、实体跟踪的学习，试图做到与人脑对物理世界的感知一样，实现通用的视觉感知能力。在认知阶段，将空间计算 Backbone 对接驾驶决策，采取更丰富、更全面的感知信息来训练驾驶决策模型，结合海量的真实驾驶数据训练，终究实现端到端自动驾驶乃至到达无人驾驶。

在驾驶评测能力上，怎么提高自动驾驶系统的测试效力十分关键，传统的仿真不够真、路测本钱又太高。借助 DriveGPT 的能力，可以在云端实现高效的驾驶能力测评。一方面，DriveGPT 本身的驾驶水平非常高，可以在云端通过大模型输出驾驶决策真值，来对照车端小模型的驾驶效果，实现大范围云端自动化测评，构成一种“Teacher-Student”模式。另外一方面，由于 DriveGPT 具有很强的自主化能力，相当于一个独立智能体，通过在驾驶仿真场景中布置多个智能体，就能够摹拟非常复杂的真实交通场景，特别是针对复杂场景的多车交互与博弈，能给出更真实、更有效的测评结论。

当前，毫末将携手生态火伴率先探索 DriveGPT 的四大利用能力，包括智能驾驶、驾驶场景辨认、驾驶行动验证、困难场景脱困。DriveGPT 大模型可以将云真个能力对外开放，包括大范围数据的自动化标注、自动驾驶场景仿真测试等能力。

在清华大学讲席教授、智能产业研究院（AIR）院长张亚勤院士看来， ChatGPT 的横空出世，代表着人工智能正在进入以大模型为核心的数字3.0时期，大模型技术正在成为新技术革命下的新一代技术基础设施。

当前，各种生成式大模型利用正在区别垂直领域中如雨后春笋般爆发，为自动驾驶领域带来革命性的变化。毫末 DriveGPT 大模型技术将使得自动驾驶技术产生质的奔腾，成为实现真正无人驾驶的最有可能的技术线路。毫末 DriveGPT 大模型，正在重塑汽车智能化技术线路，为当前自动驾驶升级提供了 AI 技术新范式。

在 AI 革新的浪潮当中

毫末不断探索推新，紧握时期技术脉搏

以硬核实力为自动驾驶行业开辟更多可能

未来已来，毫末与你携手共赴！

桂\哥\网\络www.guIGege.cn

TikTok千粉账号购买：https://www.tiktokfensi.com/

本文来源于chatgptplus账号购买平台，转载请注明出处：https://chatgpt.guigege.cn/jiaocheng/29265.html 咨询请加VX：muhuanidc

GPT大模型掀起AI浪潮！一文看懂毫末自动驾驶生成式大模型DriveGPT

相关推荐

联系我们