个人信息不会泄露给第三方
9月24日,由新浪汽车、牛车网、汽车智能、汽车观察杂志联合主办的第七期轮语汇自沙龙、牛车网第四期汽车智能沙龙——“无人驾驶,未来何时到来”在清华大学旧经管报告厅举办。清华大学教授、博士生导师邓志东,为我们做了主题为《人工智能将加速无人驾驶汽车产业化进程》的精彩演讲。邓志东将无人驾驶的全球现状进行了细致的分析,并对未来无人驾驶的整体发展路径做出了预判。
以下是演讲实录:
邓志东:大家好!今天有幸跟大家分享一下对人工智能与无人驾驶的认识。 讲两个方面的问题:第一,无人驾驶汽车正在走来;第二,人工智能将加速无人驾驶汽车产业化的进程。
一、无人驾驶汽车正在走来
把 “无人驾驶”和“自动驾驶”的概念搞清楚十分重要,首先来看看两个最有名的分级。一个是美国高速公路交通安全局(NHTSA),它把自动驾驶分成五级,从 L0一直到L4,这个大家很清楚,我们一般都采用这个分级。L0完全是人工操纵的,就是我们现在的汽车,辅助驾驶只是起一个告警的作用,没有形成闭环。 L1是形成闭环的辅助驾驶,但仅是单个辅助驾驶起作用,也就是所谓的半自主。L2是既有纵向也有横向的闭环。L3是高度自动驾驶。L4是完全自动驾驶。另 外一个分级是美国汽车工程师协会(SAE)发布的,它把自动驾驶分成六级,从L0一直到L5,中间加了个“有条件的自动驾驶”。
一个是 SAE的分级,还有一个是NHTSA的分级,为什么要提SAE? 9月20号美国交通运输部,已经最新发布了自动驾驶的联邦新规,明确了无人驾驶汽车以SAE的六级作为分级标准。所以以前的五级现在不作为美国联邦的标准 了,以后以六级作为分级依据。这个六级和原来的五级有什么区别呢?
其 实前面的L0、L1和L2都是相同的,这里有个共同特点,都是人类监控行车环境,就是人要密切注视周围环境,说白了是在司机的位置一定要有人,只要是 L0-L2级的,即使这个车是机器开的,人也得全神贯注外面的行车环境,我们叫“安全驾驶员”(safety driver),这是一定要有的。到L3由机器自主感知行车环境,这时候司机的位置是没有人的。如果司机的位置没有人了,它就至少是L3以上的。 NHTSA的L4细分为SAE的L4和L5,我是比较认同的,这样概念上更明确了。到第3级没有safety driver了,但是屏幕上有个监视员,可以在车后座上,也可以在车外。到第4级或者第5级时,这两个人都不存在了,完全不需要人去管了,就是真正的无人 驾驶了。我们现在还远远没达到。
从 SAE分级来看,第4、5级还有什么区别?第4级是限定区域、限定功能的,比如它只跑开发区,只跑工业园区或住宅区。如果是第5级真正的无人驾驶,是什么 地方都可以去,完全不限定区域,也实现了全部的驾驶功能,这也是我们的梦想。我们说L4可能比较好,因为L5更远,L4这个级别实现起来比较现实,10年 商用是有可能的。
L1还是辅助人的,可以有一个以上的ADAS,但是是分开使用的,没有横向或者纵向的联合闭环使用;L2是联合使用,有纵 向控制也有横向控制,需要有人类驾驶员的感知接管,就是要有人感知行车环境,司机那个地方必须有人,尽管已是机器自动开的,人是辅助的,但是人必须看着周 边的环境,随时准备进行接管;L3也是人辅助,这个时候司机的位置没有人了,但是一旦发生紧急情况,人是可以通过屏幕、通过计算机来进行干预的;L4是高 度自动,限定功能、限定区域。现在汽车制造厂商都是三部曲,即辅助人,人辅助,然后实现无人驾驶。比如绝大多数国际汽车业巨头,包括新车企特斯拉和老车企 沃尔沃、奥迪、丰田等都做得非常好,都在测试自己研发的自动驾驶汽车产品。
还 有无人驾驶,IT跨界企业大多从事无人驾驶研发。把L1这块丢掉了,直接从L2开始做。L2是有感知接管和监控干预的。比较典型的是谷歌、Uber、百 度、Lyft、苹果等。前面反复说了,L0是没有闭环的,L1已经有了闭环,但是这个闭换是纵向或者横向的,L2是纵+横,L3是safe driver没有了,但有monitor driver,L4里面就完全没有人类驾驶员了,转向、踏板都可以拆掉,但是必须限定功能、限定区域,L5是全区域、全功能。像谷歌已经出现了没有方向盘 和踏板的概念车。
8月25号在新加坡推出了首个无人驾驶出租车免费载客服务,通过叫车软件,经筛选的乘客坐车不需要花钱,但它是限定区域 的,限定2.5平方英里的商业住宅区。目前有6辆车,据说年底增加到12辆,而且经过了2年的测试,2014年就开始做这个事情了,路测了差不多2年才开 始推出的,因为汽车是特殊的商品,它对安全性有极高的要求。
还 有个最令人振奋的消息,就是Uber 于9月14号在美国匹兹堡市市区,没有限定区域,而且市区里有上下坡、狭窄道路、隧道等,比新加坡那个水平高很多,也同样推出了无人驾驶出租车免费载客服 务,并且开始试运行。使用Uber的叫车软件,谁都可以坐,也是免费的,它应该就是典型的L2,而且没有限定区域。这是作为一家企业的试运行出现的,不是 搞科研的测试车,这是非常振奋的消息。目前Uber已有4辆混合动力的福特车改装的无人驾驶出租车,还有12辆车备用,而且也测试将近2年了。这就看出来 了差距,我们还没有真正路测呢。它的阶段目标很明确,就是经过3-5年的努力,如何从L2变成L3,即先去掉一个safety driver人,然后再去掉一个monitor driver,就变成了无人驾驶的L4了。但是这个过程是很痛苦的,减一个人说起来很简单,但是有很大的风险。如果真要减员成功,可能需要3-5年才能完 成。但是我觉得它应该很快,因为它测试了两年基本没有出现什么事故。目前在旧金山也在测,但是并没有在那里进行试运行。
沃尔沃计划将100辆自动驾驶汽车在中国进行测试,明年在瑞典首先进行路测。他们今年在北京六环已经跑了1200公里了,环路或高速公路上没有路口、没有环岛、没有红绿灯,简单很多,但是作为企业产品,确实在中国的道路上测试了至少1200公里了。
我 们最早做L2“无人驾驶”是从厘米级栅格/拓扑地图+RTK导航开始的,而且还限定区域。L0、L1、L2的自动驾驶方案是限定成本进行研发的,这个 ADAS产品出来必须是3000块钱或者5000块钱来实现某个功能,这个做起来更难,这是限定成本情况下的ADAS进化,虽然最后的目标仍然是L5。
无 人驾驶降低成本的方案有四个方面:第一,人工智能算法。比如我们可以利用深度监督学习,不仅可以用来解决视觉感知的问题,还可以解决导航定位问题、高清地 图创建和信息融合等等,都可以用人工智能算法来做,这是根本性的解决方案。第二,降低激光雷达(LIDAR)的生产成本。第三,基于4G/5G,我们国内 已经开始测试5G了,它出来之后车联网问题会大大缓解,对无人驾驶非常重要,现在某种程度上4G也足够了。第四,智慧交通设施,就是智能空间或者智慧空 间,也同样可以降低自动驾驶或者无人驾驶汽车的成本,就像我们搞机器人一样。
至 于商业模式,我认为每一个SAE分级都应该有自己的商业模式。例如做L0、L1的ADAS,已经有了商业模式,L0就是目前市场竞争十分激烈的辅助驾驶告 警产品,L1就是诸如ACC、自动泊车等;L2的自动驾驶产品,就是Tesla正在推出的自动车道保持、自动前车跟驰和自动变道等功能产品,百度等做的 L2无人驾驶商业模式,则是先找个开发区把无人驾驶汽车试运行起来;L3更有可能获得商业回报,因为safety driver没有了,把成本进一步降下来了。总之每一个分级都有商业模式。
我觉得整个产业主要有四个方面可以做:第一,汽车共享与智能服 务,这是最根本的目标。Uber把无人驾驶当成它至关重要、生死攸关的一件事情来做。Uber是做共享汽车,通过无人驾驶出租车把司机的人力成本完全降下 来,就具有足够的市场竞争优势。我想今后可能滴滴也会做这个事情,百度搞无人车也会去做汽车共享,这个战略布局非常重要,可以从根本上解决智慧出行问题。 第二,自动驾驶和无人驾驶汽车,但这只是网络或系统中的一个节点而已,跟智能手机一样是一个移动终端。第三,车联网和云平台。第四,产业链上游,如高清地 图、激光雷达。另外,也会出现无人公交车、无人货车等,需要配套修改相关的交通法律法规。
本 月Uber的无人驾驶出租车免费载客试运行以后,我认为L2实际上已经实现了,这是无人驾驶汽车发展史上的一个里程碑。再过3年左右,2019年就可以把 安全驾驶员(safety driver)那个工程师去掉了,但是monitor driver还得有,遇到紧急情况还要通过计算机人为干预。再过10年,把这个人再丢掉以后就到L4,高度自动的,这时候完全不需要人了,可以自动处理紧 急事件等非正常情况。事实上,Uber目前的无人出租车就有天气传感器,有暴雨或者有暴雪就会自动停下来不开了,人也不是在什么情况下都敢开的。再过十几 年,我认为是2030年后,才能真正实现L5的全工况完全自动驾驶,这时候就很有可能发生产业颠覆,那时候应该是任何气候、任何时间段、任何区域都可以 去,跟人开车和处理紧急事件的能力差不多。
汽 车社会有四大公害,美国交通运输部长说无人驾驶可以挽救成千上万人的生命,更安全、更少的拥堵、更少的污染,可以改变许多老年人和残疾人的生活。比如无人 驾驶共享出租车,可以使北京的机动车保有量至少降低三分之一,就是不需要那么多车了就可以解决市民的出行问题。现在车的使用效率很低,天天上下班之后就停 在车位上,其他时间都是浪费的,是极大的资源浪费。采用汽车共享的方式,使市民出行的汽车需求量降低三分之一以上,可从根本上解决交通拥堵问题,因为全部 是无人驾驶汽车以后不会出现抢道、夹塞等,反而道路使用更加通畅,加之使用新能源,线路可以优化,安全问题也会更好。
显 然这个产业序幕正在拉开,但是在技术上都会有什么挑战呢?第一,自主性,就是要具有更多的智能,比如迷茫了会停下来,在路边不走了。第二,环境适应性,就 是什么地方都可以去,比如高速公路可以走,县级道路也可以走。其实无人驾驶汽车的研发是非常复杂的,一般包括主控单元、决策与人机交互模块、规划与导航模 块、环境感知与理解模块、环境建模模块、车道线、路缘、护栏感知模块、路面感知模块、非结构化区域感知模块、障碍物(机动车、非机动车、行人)感知模块、 交通标识(交通信号灯、交通标志牌和地面指示箭头等)感知模块等,还有车控模块,还有故障诊断、车载电源等等模块。
我 们人为什么开得好?从驾校出来以后就可以很快的开车,什么地方都可以去,确实是全区域全功能的,原因是人是在理解的基础上开车的。机器它理解不了,对它来 说只是一堆像素、点云数据而已。那我们怎么办?我们采用很多传感器,例如摄像头、激光雷达、毫米波雷达等。比如道路上有很多车道线,或者褪色了,或者路面 有阴影,这对人来说一点问题都没有,但是对传统的计算机视觉方法来说就是较大的问题。这幅图全部是激光雷达扫出来的,精度可以达到几十厘米。尽管它扫出来 了这个车道线,但是它理解不了这是“车道线”。
还 有更加复杂的越野环境如何理解?比如丘陵、沼泽地等,人用眼睛一看就明白,但是机器理解不了。还有障碍物如何理解?人对障碍物很容易判断,比如可以判断树 是静止的,但是对机器来说做到准确判断是很困难的。另外对路标的理解,还有障碍物的识别也很重要。怎么去判断机动车、行人和非机动车?我们人的识别是很可 靠的,只要开车这个人意识是正常的,前面障碍物都能够识别出来,是很简单的一件事。对机器来说做到绝对可靠是如此之困难。另外对导航还要以低成本的方式实 现定位定姿,它的要求其实比无人机要苛刻得多。比如汽车只要横向偏离30厘米,就几乎要压到车道线了,一般车道宽度是3.4米。而且还要保证它长期可靠, 比如你可以从北京开到深圳去,一天两天,都要保证这么高的精度,里面中间还要经过隧道和大量的桥梁等。
怎么办?用多模态传感器,这 就涉及到如何进行信息融合的问题。例如要做到L4以上,上面都没有人了,机器怎么判断自己感知的环境是失败的、是失效的?我们人可以判断,但机器判断是很 难的。交通流稠密的复杂城区,如何安全敏捷地避开行人等障碍物?行人是个小目标,靠你很近,如果你不能快速地紧急刹车,一下就把人撞上了。
共 性关键技术,一个是“深度学习+环境理解”。深度学习这在现在看来是革命性的进展,在计算机视觉、语音识别、文本分类上面的一种革命性进展,是前所未有 的。因为人工神经网络的模型有几百种、几千种,搞了大半个世纪了,但是真正好用的目前可能就是这个。第二个是“深度学习+信息融合”。
前沿核心技术,主要包括:第一,基于深度监督学习的障碍物检测与识别技术;第二,基于深度监督学习的高清地图创建技术;第三,基于深度监督学习的多模态导航融合技术;第四,基于深度再励学习的自主决策技术。
由 于采用深度监督学习,因此大数据就显得特别重要了,可以说是一种极其重要的企业资源。例如谷歌的无人驾驶汽车现在总的里程已经超过241万公里,主要是城 区道路,而且还有模拟驾驶环境的,因为很多算法可以在模拟环境里跑,也可以有数据出来,这样视觉大数据就一下子增加了很多。
相较之下,特斯拉6个月就超过了7500万公里,主要是在高速公路上的大数据。
美 国硅谷目前已经成为智能汽车创新的热土 。百度9月1号在硅谷拿到了加州的路测牌照,成为第15家获得此牌照的企业。大数据非常重要,无人车一定是路上跑出来的,绝不是试验室实验室关着门模拟出 来的。在某种意义上,跑得越多离商业化就越近,企业搞无人驾驶和自动驾驶就看它的无人车跑了多少公里数。
利 用深度监督学习,它采集的视觉大数据越多,就越能够获得更好的驾驶直觉。前面已指出,路测大数据越多,无人车离商业化就越近。例如,谷歌已有54辆以上的 原型车了,商业化进程正不断向前推进。今年路试地点已从Mountain View和Austin扩展到了Kirkland和Phoenix,这两个地方是潮湿多雨和高温沙尘气候,这就开始涉及到更为复杂的情况。特斯拉约有7万 个车配备自动驾驶模块,分布在世界各地进行路测与大数据收集。
支撑深度学习的另一个支柱是硬件引擎,主要包括基于超级GPU/TPU集群的离线训练,基于云平台的在线应用以及(移动)端应用。深度学习硬件开发企业,比如英伟达的GPU,还有高通的移动终端深度学习芯片,谷歌的张量处理器TPU和IBM的类脑芯片等等。
现 在无人驾驶和自动驾驶领域中专注于人工智能的公司在美国出现了很多,有的还做得非常大。例如现在技术巨头除了谷歌、Mobileye、百度以外,初创企业 比如美国的Zoox,现在据说有一二百人的研发队伍,而且无人车天天在跑,也是15家加州路测企业之一,做得很大。还有drive.ai,专注无人驾驶或 自动驾驶中的人工智能技术。还有Cruise Automation,这个已经被通用汽车收购了。还有comma.ai,还有日本的Preferred Networks等,都是侧重于无人驾驶或自动驾驶中的人工智能算法。
总 之,深度学习或者感知智能是源于原始真实大数据,不需要进行预处理,它的实时性也正在得到诸如FPGA、GPU和类脑芯片快速发展的保障,有可能创新性地 支撑无人驾驶汽车的单目视觉+,有机会跨越性地实现甚至超越Mobileye的单目视觉能力。我们现在至少已有这么个机会,可以赶超它甚至跨越它,以前是 没有的,因为传统计算机视觉算法很大程度上是靠经验,行业浸润越多,经验越多。现在门槛降低了,大家都差不多了。我想我们可以通过这种方式实现感知设备的 “减法”。我记得以前无人车上全是传感器,无人车的四周都装上了摄像头和一线激光雷达。其实好多是没有用的,人就是靠两个眼睛,后面一些地方看不见,但一 点不影响我们开车,所以这些东西是没必要的。但是在研发初期没办法,交学费嘛,必须要这样。
最后,我想报告的是人工智能是迈向SAE L5无人驾驶的前沿核心技术。,这里至少存在两个方面的严峻挑战。
第一,绝对安全性与低成本带来的挑战。
我 们的无人车是一件很特殊的产品,这个产品对安全性的要求极高。例如,ADAS前装与后装产品要经过两三年的上路测试才可以,这个时间对企业而言是很长的, 要求是绝对安全性,出点问题就变成法律问题甚至社会新闻。还要求低成本,太贵了卖不出去,所以这是个巨大的矛盾,成本要便宜,还要保证绝对安全性。
怎 么办?首先用人工智能去做高清地图,这极有可能形成一个巨大的产业。国外早就有测绘车和高清地图这个东西了,我们的企业也有了。谷歌最高可以做到10个厘 米左右的栅格精度,国内现在可以做到30厘米左右,研发单位可以做到20厘米左右。用“深度学习+高清地图”,做基于路标的HD地图,现在每公里的数据量 是12-15G,利用路标后这个地图可以做到10个kb/km,这样就能做到全中国、全世界的高清地图。其次,还要突破基于深度学习的极端环境下的道路感 知,比如下雨的时候或者强反光的时候。包括车道线、可行驶路面,通过结合高清地图来做是可以的,效果可能比人还好,因为人脑子里是没有这个地图的。还有基 于深度学习做障碍物识别与行为意图预测,这是个很大的产业,可以大幅度降低无人车成本。无人车最理想的方式就是只用一个摄像头来做障碍物检测与识别。当然 特斯拉出问题也在这块。如果单目不行的话,可以考虑“摄像头+低成本激光雷达”的组合方式,不但把障碍物检测出来,而且还可以对它进行分类,这是车、这是 行人,它的运动参数也可以可靠地估计出来,距离是多少、速度是多少、方位角是多少。如果做得很可靠很准确的话,这是个非常好的东西。此外,还需要解决基于 AI的多模态自主导航,GPS在经过隧道的时候信号就没有了,这时候要靠其他导航方法。其他还包括研究单目视觉SLAM技术,还有传感器的复用技术。例 如,国外一个无人车上采用32线的激光雷达,既可以识别障碍物,也可以做匹配导航,还可以创建地图等等,这样就可以把成本降下来。
无 人车里面有个核心的决策模块。决策需要对驾驶态势进行判断,例如,在路口时应当左转弯还是右转弯?遇到各种障碍物或是出现紧急情况时,是减速、跟驰、变 道,还是紧急制动?人工智能领域目前还没有提供很好的认知智能方法。因为现在的认知智能是有缺陷的,还没有突破诸如推理、决策、思考等。怎么解决无人车涉 及的决策问题?L3的无人车只有一个monitor driver,人还在进行监控干预。但是如果到了L4,那个监控决策之人也不存在了,这个时候就要靠机器来做这个判断,但人工智能在这方面其实没有什么根 本性的进展。L2不存在这个问题,因为它是感知接管,安全驾驶员还在,手不离方向盘,同时他/她也在进行行车环境的感知。
L3 是人机共驾,司机的位置没有人了,但是后座还有一个人,可以通过手持设备,甚至他也可以不在车上,在车外、在远端,对紧急情况进行干预,但是这是通过计算 机进行干预的,不是自己抓方向盘。L3要求具有足够的人类水平的局部感知环境能力,这部分是有可能做到,因为有感知智能的进步,有深度学习的进步,以后是 有可能完成这种水平的行车环境感知的。另外机器发出监控干预请求时,机器是怎么判断的?这个时候人是不动方向盘的,但是你的计算机告诉我“有一个紧急干预 请求”,这时候就要通过monitor driver赶快进行干预。如果我们清楚了这个概念或定义的话,就不会随便说自己的无人车是L4级别的了,L5就更不用说了。总之,L3这时候人在环,但 是不在司机的位置,仍需要引入人的监控干预。
L4 是上面两个人都没有了,完全不需要人的感知接管和监控干预了。有迷茫或者有问题会自动停车。真正的无人驾驶至少是L4以上的级别,它没有人了,人都是乘 客,不是司机也不是干预员。完全是机器自动完成,机器怎么才能自动完成监控干预,看来只能依靠人工智能在这方面的进步了。
L5是我们真正意 义上的无人驾驶汽车,是一个极有可能产生产业颠覆的东西,但它至少要在15年以后才有可能出现,完全是全区域、全功能的,只有乘客,哪里都可以去,跟人的 驾驶能力和水平一样。但出现特殊紧急情况或者故障的时候,未来的L5难道就一点不需要人的远程干预了吗?比如下特大暴雨了,前面断路了,它要调头又调不了 了,这种情况它怎么去自动处理?届时人上去也开不了了,因为L5已经没有方向盘和踏板了。如果我们把L5问世假定在2030年,离现在还有15年的时 间,15年人工智能会有这样的突破吗?在认知智能上有类似于目前深度学习的突破吗?应该说确实不知道。
最后,就是在L5时代车联网V2X网络空间安全,可能带来的严峻挑战。物理上汽车跟网络连在一起了,从理论上来说就存在这样一种可能性,就是有人或能操控你的无人车了。那么我们怎么去应对这么一个网络空间的安全问题?
三、结语
第一、深度学习的进步,使得无人驾驶汽车产业极有可能最短在2-4年之内跑通初步的的商业模式。Uber的无人驾驶出租车已经开始试运行,尽管目前还没有什么商业回报,还只是技术测试。
第二、智慧出行:无人驾驶汽车应该作为汽车共享与智能服务的一个移动节点或端设备。这样看的话问题就很大了,有可能出现把无人驾驶汽车看成是下一代的智能硬 件,和现在的智能手机类似的东西,只不过是更大的移动端设备。车不亲自开了,在上面可以享受很多的智能服务,你可以玩游戏、听音乐、打电话、订餐馆、订菜 单、订旅馆等,因为你不需要开车,是机器给你开的,这个搭车时间可能有几十分钟或者一两个小时,你完全可以做很多事情,接受很多互联网服务。
第三、拥有大数据和计算能力是制胜的关键。
第四,中国传统汽车产业缺乏全球竞争力,本来是有这么一个机会可以实现弯道超车的。国内汽车业决心很大,但是没有太大的动作。但国外的整车企业或跨界科技巨头,都在做自己的自动驾驶或无人驾驶产品,而且已经开始逐步进入产品测试或试运行阶段了。