克服AI幻觉？也许在开智驾倒车

新浪汽车原创

发表于 2025/07/23 16:57

关注

与去年信心满满相比，智驾领域今年的气氛可不大好，充满了怀疑论的味道。质疑者永远存在，一旦上升为主流意见，就暴露了业内对眼下的技术路线缺乏满意。

前年“端到端”商业版本问世，去年大行其道，几乎家家都上了“端到端”。今年迷茫的迹象在于，大家开始面临路线分歧：有继续用端到端的，有用端到端+VLA（视觉语言动作链），有单独用VLA试图打造Agent（通用智能体）的，还有通过构建世界模型训练AI的。路线分歧，透露了技术瓶颈就在眼前。

幻觉到底怎么产生的

瓶颈的最大原因，在于训练模型的“幻觉”问题越来越严重。到底什么是幻觉？简单说，AI幻觉就是错误理解和胡说八道，但实际情况更复杂一些。比如大家都知道AI画不好人类手指。不但皮肤、关节、褶皱和质感不自然，还可能出现六指。问题在于，当你向AI指出来人物手指数量不对，它一方面承认人类一只手的指头只有5根，另一方面不认为自己画的六指有什么不对。

这说明AI不像人类那样“看到”现实。无论VLM（视觉语言模型）、LLM（大语言模型），都只是根据上一个Token（简单翻译成“词元”，实则为模型矩阵的向量），猜测下一个Token，即做概率预测。问题是概率最大的未必就是现实。

麻烦还在于，如果根据幻觉数据继续训练，那么得到结果偏差可能更远。因此有人呼吁使用LLM诞生之前的数据进行训练。现在业内粗略将幻觉分为两类：事实性幻觉：包括事实不一致和捏造事实；忠实性的幻觉：包括不遵循指令和不遵循上下文。也有人说，幻觉没准儿是创新的源泉。但至少在智驾领域，这种想法毫无帮助。

幻觉的产生与数据源、训练和推理过程有关。

地平线CEO余凯早就表示，（绝大多数）人类司机的驾驶行为不值得学习。操作都不是最佳的，数据也没有增量信息。从训练效果考虑，车企最喜欢获得的是司机面对少数极端场景，快速做出最优选择，仅仅“动作合理”远远不够。也因为这一点，在智驾上抱负很强的车企，都倾向于自建车队，而非通过提炼用户行为来获得训练数据源。

在训练阶段，随着token的长度增加，不同位置注意力被稀释，基于概率预测下一个token可能产生偏差。一个微小偏差的token，后续预测偏差可能放大，最后表现出非常不合理的策略。

而推理阶段，系统可能过于关注频繁出现的相邻文本，反而对同源上下文关注不足。比如电瓶车与外卖标签成组出现非常频繁，导致模型误认为骑电瓶车的都是送外卖的。对其驾驶行为的评价，可能导致对其他电瓶车行为的误判。

显然，训推阶段都是预测出了问题，归根结底都与与自回归模型（AR模型）有关。AR模型就是一种处理时间序列的统计学方法，与人脑的视觉算法不同。人眼每秒看到20M视频信息，实际上大脑只须颉取关键信息，其余数据均被忽略，算力占用很少。这是因为，每个人出生自带多个小模型框架，其中一个就是极简版VLM。这些模型如此高效，赖数百万年造化之功。

而大模型则靠GPU死堆参数，试图不加区分地处理非常庞大的数据（模型不够简化）。以此通向AGI，只有死路一条。因为现实世界数据量如果不加精简，很容易堆栈溢出。这就是世界模型诞生的背景。

克服幻觉的办法可能不奏效

智驾系统必须依靠摄像头、激光雷达、毫米波雷达等传感器感知场景，这要求将多种传感器的多模态信息融合。而后将这些数据与交通规则统一编码，成为系统可以理解的一组token。

然后，通过语言模型和逻辑推理结合，给出合理的架势决策，也输出一组“动作token”，这些变换为驾驶轨迹（变换方法很复杂，从略）。而LLM的价值在于，提供了复杂场景下的类人推理能力。比如道路上突然滚过一个皮球，AI应该能像人类一样，及时推测出可能有儿童在后面追逐。

整个推理都要放在车端，实时性好。这就决定了车端转移模型不能太大（参数量0.1B~0.5B），基本上是小模型的体量，而VLA模型参数量要大10倍。简单说，就是训练云端大模型，经过蒸馏出小模型，转移给车端。

所以我们能看到车企疯狂买卡，搭建AI基础设施。到目前为止，车企大多声称，有能力对付训练中的幻觉问题。但车企提出的办法，迄今未带来惊喜。一般就是三板斧：用后训练微调VLA模型，用规则兜底下限，这都很常规。而“激活引导”就很难从字面上理解了。

后者说穿了也简单，在LLM当中，就是用数学方法，计算正反两方面样本的差值，得到引导向量（可以简单理解为与真实描述之间的“偏差”），然后在AI思考的时候，引入这个变量，推它一把。与所谓的“微调“方法比起来，好处在于无须改变模型参数，也不用重新训练，只在每次新的token生成时牵引，输出方式和风格都不变，结果却更贴合实际。

还用刚才的例子，作为纠正措施，系统提示模型，只有穿着特定服装的骑手，才是外卖员。引导将普通骑行者预测与外卖员区分开。

以上都算复杂的例子，有的模型粗暴地将本方向绿灯与“绝对安全”关联，现实中就可能铸成大错。

事实上，无论哪种方法，都无法确守住保极端场景中的下限。人类司机面对路面上突然出现的不合理高度的减速带，可能有各种反应。急刹（后车追尾风险）、硬过（承受颠簸甚至托底），或者折衷（克制刹车力度），但如果跨过黄线绕行，在未能充分观察对面路况前提下就相当不理智了。很难确保AI是否会这么做。

在迈向L3、L4过程中，幻觉一定会成为绊脚石，甚至当下L2阶段已经是了。

解决幻觉可能意味着倒退

有厂家直接追求Agent。其实如果达成了Agent，开车绝对不在话下。车不可能上天，也不会原地直接旋转，车的运动自由度其实很少。不像Agent，上来就40多个自由度。就像有球队在大学生联赛中发挥不佳，决定先拿世界冠军，回过头来解决大学生联赛胜率问题。

现实往往很残酷，消除幻觉可能没有捷径可走。Momenta CEO曹旭东曾表示“避免幻觉与人类考试同理，需高质量题库（数据）与严格评分（验证）”。具体包括在训练中引入复杂场景、收集长尾事件作为训练样本、在世界模型中构建复杂场景。这些都可以总结为多练，多做难题，以应对很难的考试。

和端到端思路不同的是，今年有人推崇“思维链的可解释化”。在技术上做法很复杂，但都可以归结为用工具链设定行为规则，限制模型的决策自由度，保留人类对决策过程的观察权利。

也有人主张从数据源头实施交叉验证，要求模型提供关键决策依据。总之，以上措施可以总结为两个方向的努力：优化数据、人工审核。不得不说，智驾系统好不容易从规控到端到端，现在因为幻觉问题，又有点倒回去的嫌疑。

淘洗数据、规则审查和变量干预，成本都不低。到了这一步，有人开始怀疑，智驾路线是否彻底走错了路。业内很希望有人站在上帝视角告诉大家，我们并未走错路，只是未找到通往“类人智慧”得捷径。在“机器主观意识”迟迟未能诞生的时候，退而求其次，下笨功夫，距离更理智决策、更懂规则，不会发疯和胡言乱语的AI，已经很近了。

(责编：新浪汽车大Q)

二手车

查看更多二手车

查看完整榜单

还有3个信息需要填写哦~

底价将以短信的形式发送到您的手机
个人信息不会泄露给第三方

获取底价

文章

克服AI幻觉？也许在开智驾倒车

新浪汽车原创

网友点评

二手车