“一段式”与“两段式”，看不见上限的军备竞赛

新浪汽车

发表于 2024/11/01 13:26

关注

本文介绍的车型

10月29日，小米在发布会上表示10月30日在全国范围内部署城区NOA。而“端到端”将在11月底内测，12月底推送先锋版。其实，今年夏天开始，“端到端”智驾就成了业内最火的概念。就在小米发声前一周，理想汽车也刚刚宣布了自己的端到端进程。

小米还在疯狂赶工中的“端到端”，是“一段式”（感知和规控合为一体），还是“两段式”（感知和规控模块分开，中间嵌入人工接口），目前没有公开信息。不过，9月份小米将原来“感知”和“规控”两个二级部门合并为“端到端算法与功能部”。组织架构的变化，暗示小米至少将“一段式”作为目标。

截至目前，已经有十几家主机厂和供应商，声称上马或者即将上马“端到端”，以至于这个概念，从新鲜到滥俗，只花了不到1年时间。不管有没有，都得说有。看如今的流量打法，嘴上输了就等于“输阵”。闽南人说“输人不输阵，输阵歹看面”。对潜在受众和自家团队构成士气打击，不是小事。

一段式端到端示意图

“一段式”和“两段式”，双方旗鼓相当

目前，声称已部署“一段式”端到端的供应商，只有Momenta。智己、广丰、埃安，作为Momenta的客户，宣布同期部署。就在10月28日举办的品牌智能驾驶技术日上，智己汽车宣布IM AD 3.0完成从“最像人”到“有直觉”的进化，迈入“直觉”智驾新时代。

而表示“即将”部署“一段式”的品牌，则包括理想、小米、商汤科技、元戎启行等。“两段式”主机厂和供应商似乎数量更多，目前有小鹏、极氪、极越、魏牌蓝山 (配置 |询价)、鸿蒙智行等。

而宝骏作为大疆的用户，不但部署了卓驭+宝骏云海 (配置 |询价)，还特意标明为“中算力两段式端到端”。

至于华为的鸿蒙系，客户包括问界、享界、智界、岚图、阿维塔、方程豹、广汽传祺。东风猛士、尊界也宣布了与华为合作的信息，但迄今尚无“端到端”部署规划。华为的态度，暂时未将“一段式”作为目标。而且，华为也不认为“两段式”是通往“一段式”的过渡形式。

除此之外，奇瑞、长安启源、地平线、轻舟智航等，虽然规划了端到端，但未说明形式。

到现在为止，端到端领域，看似支持“两段式”品牌略多于“一段式”。如果将同一供应商技术来源的，都视为一个品牌，两者几乎旗鼓相当。

在实现高等级自动驾驶诸多技术路径当中，端到端值得尝试，很可能不是唯一路径，甚至不是最优路径。

我们曾提到过，时髦的“端到端”智驾，走到哪一步了“两段式”的优势在于，人工接口信息可观测，但感知输出的白盒状态，就意味着信息过滤后存在损失。

而“一段式”和“两段式”相比，理论上前者信息丢失少，上限应该比较高。但鉴于“一段式”可解释性更差，到底突破什么下限，大家都没底。因此所有厂商，不管做的是“一段式”还是“两段式”，无一例外都设置了兜底规则（rule-based）。这也意味着“两段式”同样存在不可解释的部分。

数据需求决定部署规模

虽然“端到端”的参数量只相当于中模型，在一枚英伟达Orin-X上就能跑起来，貌似消耗算力不多。但背后必须有大数据和大模型支持。数据的门槛不仅是对绝对数量的要求，对于数据的分布和多样性要求也极高，而且还要求是100%的好数据（合规最优操作）。

主机厂自研，和由供应商推动，最大的区别不是技术本身，而是数据获取能力。后者理论上能获得多个品牌的产品数据，数据量更大。

有人表示，“一段式”端到端应部署在20万元以上中高端车上。现在没有迹象表明，“一段式”就比”两段式“需要更大的车端算力和更强的感知能力（比如有无激光雷达）。将端到端能力作为入门级和高配区分的一个维度，有可操作性，但同时其演化规律又要求更大的数据量，即尽量扩大部署规模。两者要求背离。

何去何从，需要掂量一下。当前端到端的竞争主轴并非现实商业利益，而是尽快迭代起来，形成明显的使用价值。由此可见，即便实地部署了“一段式”端到端，迭代到可用、好用，群众满意的地步，也需要长期投入。

算力大比拼

不可否认，“一段式”模型，设计源头就比“两段式”难度更大，调参回路更长、落地流程也更艰难一些。

AlexNet多层神经网络

设计一个可工作的神经网络（模型）需要很多人类智力资源，训练它更复杂。神经网络的每一个子网络，都涉及归一化、偏差、非线性输出，校正回归等一堆问题。而且多层网络让这些问题的复杂度上升了维度。

训练促使模型从出生到成熟，训练的本质是定量分析。如果用5000万个clips（视频片段）训练模型20轮，相当于分析1B个clips。训练中心算力直接决定系统迭代速度。

训练系统

而算力还用于推理计算，可以将其理解为自动化标注。以前人工标注的速度慢，但精度高。推理计算的标注精度低，需要反复刷标提高精度。特斯拉计划将后台算力推高至100E（1EFOLPs=10^18次浮点计算）。根据ChatGPT的经验，训练量达到一定量级，也许会出现大语言模型的“涌现”现象。是否需要与其相当的狂野算力，任何人都没有经验，也没人宣称，多少后台算力就够了，包括特斯拉自己。

只要想自己搭建训练和推理系统，买算力卡的费用绝对省不了。考虑到英伟达H100，甚至阉割版H800/A800，包括同样能力的AMD，对中国禁售措施越来越严格，各家如何搭建算力，是一个很有意思的问题。

4月份的时候，特斯拉在Q1财报会议上透露将AI训练集群扩展到35000块H100算力卡。而同期国内能买到1000块算力卡的厂家，都是凤毛麟角。

华为的昇腾910B（按照性能最强的910 Pro B），性能据说和H100的算力差不多。但最紧要的并非峰值算力，而是FLOP利用率。英伟达的算力卡FLOP利用率出了名的低（FP8模型35%左右）。而昇腾系列的问题是产能供不应求，一块昇腾910 ProB一度炒至28万元。

假设国内企业的模型设计水平，与特斯拉相当，而昇腾系列算力卡优于英伟达一倍以上（这一点存疑），那么想达到特斯拉FSD V12的水平，至少也需要1万块以上910B算力卡。

江湖传闻，910B的2023年出货量大概50万块，这些卡被谁买走了，缺乏信源。基于众所周知的原因，华为对高制程芯片的生产细节讳莫如深。