克服AI幻觉?也许在开智驾倒车

克服AI幻觉?也许在开智驾倒车

与去年信心满满相比,智驾领域今年的气氛可不大好,充满了怀疑论的味道。质疑者永远存在,一旦上升为主流意见,就暴露了业内对眼下的技术路线缺乏满意。

前年“端到端”商业版本问世,去年大行其道,几乎家家都上了“端到端”。今年迷茫的迹象在于,大家开始面临路线分歧:有继续用端到端的,有用端到端+VLA(视觉语言动作链),有单独用VLA试图打造Agent(通用智能体)的,还有通过构建世界模型训练AI的。路线分歧,透露了技术瓶颈就在眼前。

幻觉到底怎么产生的

瓶颈的最大原因,在于训练模型的“幻觉”问题越来越严重。到底什么是幻觉?简单说,AI幻觉就是错误理解和胡说八道,但实际情况更复杂一些。比如大家都知道AI画不好人类手指。不但皮肤、关节、褶皱和质感不自然,还可能出现六指。问题在于,当你向AI指出来人物手指数量不对,它一方面承认人类一只手的指头只有5根,另一方面不认为自己画的六指有什么不对。

这说明AI不像人类那样“看到”现实。无论VLM(视觉语言模型)、LLM(大语言模型),都只是根据上一个Token(简单翻译成“词元”,实则为模型矩阵的向量),猜测下一个Token,即做概率预测。问题是概率最大的未必就是现实。

麻烦还在于,如果根据幻觉数据继续训练,那么得到结果偏差可能更远。因此有人呼吁使用LLM诞生之前的数据进行训练。现在业内粗略将幻觉分为两类:事实性幻觉:包括事实不一致和捏造事实;忠实性的幻觉:包括不遵循指令和不遵循上下文。也有人说,幻觉没准儿是创新的源泉。但至少在智驾领域,这种想法毫无帮助。

幻觉的产生与数据源、训练和推理过程有关。

地平线CEO余凯早就表示,(绝大多数)人类司机的驾驶行为不值得学习。操作都不是最佳的,数据也没有增量信息。从训练效果考虑,车企最喜欢获得的是司机面对少数极端场景,快速做出最优选择,仅仅“动作合理”远远不够。也因为这一点,在智驾上抱负很强的车企,都倾向于自建车队,而非通过提炼用户行为来获得训练数据源。

在训练阶段,随着token的长度增加,不同位置注意力被稀释,基于概率预测下一个token可能产生偏差。一个微小偏差的token,后续预测偏差可能放大,最后表现出非常不合理的策略。

而推理阶段,系统可能过于关注频繁出现的相邻文本,反而对同源上下文关注不足。比如电瓶车与外卖标签成组出现非常频繁,导致模型误认为骑电瓶车的都是送外卖的。对其驾驶行为的评价,可能导致对其他电瓶车行为的误判。

显然,训推阶段都是预测出了问题,归根结底都与与自回归模型(AR模型)有关。AR模型就是一种处理时间序列的统计学方法,与人脑的视觉算法不同。人眼每秒看到20M视频信息,实际上大脑只须颉取关键信息,其余数据均被忽略,算力占用很少。这是因为,每个人出生自带多个小模型框架,其中一个就是极简版VLM。这些模型如此高效,赖数百万年造化之功。

而大模型则靠GPU死堆参数,试图不加区分地处理非常庞大的数据(模型不够简化)。以此通向AGI,只有死路一条。因为现实世界数据量如果不加精简,很容易堆栈溢出。这就是世界模型诞生的背景。

克服AI幻觉?也许在开智驾倒车

克服幻觉的办法可能不奏效

智驾系统必须依靠摄像头、激光雷达、毫米波雷达等传感器感知场景,这要求将多种传感器的多模态信息融合。而后将这些数据与交通规则统一编码,成为系统可以理解的一组token。

然后,通过语言模型和逻辑推理结合,给出合理的架势决策,也输出一组“动作token”,这些变换为驾驶轨迹(变换方法很复杂,从略)。而LLM的价值在于,提供了复杂场景下的类人推理能力。比如道路上突然滚过一个皮球,AI应该能像人类一样,及时推测出可能有儿童在后面追逐。

整个推理都要放在车端,实时性好。这就决定了车端转移模型不能太大(参数量0.1B~0.5B),基本上是小模型的体量,而VLA模型参数量要大10倍。简单说,就是训练云端大模型,经过蒸馏出小模型,转移给车端。

所以我们能看到车企疯狂买卡,搭建AI基础设施。到目前为止,车企大多声称,有能力对付训练中的幻觉问题。但车企提出的办法,迄今未带来惊喜。一般就是三板斧:用后训练微调VLA模型,用规则兜底下限,这都很常规。而“激活引导”就很难从字面上理解了。

后者说穿了也简单,在LLM当中,就是用数学方法,计算正反两方面样本的差值,得到引导向量(可以简单理解为与真实描述之间的“偏差”),然后在AI思考的时候,引入这个变量,推它一把。与所谓的“微调“方法比起来,好处在于无须改变模型参数,也不用重新训练,只在每次新的token生成时牵引,输出方式和风格都不变,结果却更贴合实际。

还用刚才的例子,作为纠正措施,系统提示模型,只有穿着特定服装的骑手,才是外卖员。引导将普通骑行者预测与外卖员区分开。

以上都算复杂的例子,有的模型粗暴地将本方向绿灯与“绝对安全”关联,现实中就可能铸成大错。

事实上,无论哪种方法,都无法确守住保极端场景中的下限。人类司机面对路面上突然出现的不合理高度的减速带,可能有各种反应。急刹(后车追尾风险)、硬过(承受颠簸甚至托底),或者折衷(克制刹车力度),但如果跨过黄线绕行,在未能充分观察对面路况前提下就相当不理智了。很难确保AI是否会这么做。

在迈向L3、L4过程中,幻觉一定会成为绊脚石,甚至当下L2阶段已经是了。

克服AI幻觉?也许在开智驾倒车

解决幻觉可能意味着倒退

有厂家直接追求Agent。其实如果达成了Agent,开车绝对不在话下。车不可能上天,也不会原地直接旋转,车的运动自由度其实很少。不像Agent,上来就40多个自由度。就像有球队在大学生联赛中发挥不佳,决定先拿世界冠军,回过头来解决大学生联赛胜率问题。

现实往往很残酷,消除幻觉可能没有捷径可走。Momenta CEO曹旭东曾表示“避免幻觉与人类考试同理,需高质量题库(数据)与严格评分(验证)”。具体包括在训练中引入复杂场景、收集长尾事件作为训练样本、在世界模型中构建复杂场景。这些都可以总结为多练,多做难题,以应对很难的考试。

和端到端思路不同的是,今年有人推崇“思维链的可解释化”。在技术上做法很复杂,但都可以归结为用工具链设定行为规则,限制模型的决策自由度,保留人类对决策过程的观察权利。

也有人主张从数据源头实施交叉验证,要求模型提供关键决策依据。总之,以上措施可以总结为两个方向的努力:优化数据、人工审核。不得不说,智驾系统好不容易从规控到端到端,现在因为幻觉问题,又有点倒回去的嫌疑。

克服AI幻觉?也许在开智驾倒车

淘洗数据、规则审查和变量干预,成本都不低。到了这一步,有人开始怀疑,智驾路线是否彻底走错了路。业内很希望有人站在上帝视角告诉大家,我们并未走错路,只是未找到通往“类人智慧”得捷径。在“机器主观意识”迟迟未能诞生的时候,退而求其次,下笨功夫,距离更理智决策、更懂规则,不会发疯和胡言乱语的AI,已经很近了。

(责编:新浪汽车 大Q)

网友点评

    二手车

      查看更多二手车
      还有3个信息需要填写哦~
      底价将以短信的形式发送到您的手机
      个人信息不会泄露给第三方
      获取底价
      微博
      微信
      朋友圈
      关闭
      文章
      相关推荐
      取消
      取消

      海报生成中

      请稍后

      ...

      长按上图保存