个人信息不会泄露给第三方
今天下午,在连胜两局之后,谷歌阿尔法狗(AlphaGo)拿下赛点,以五局三胜的成绩战胜围棋职业九段选手李世石。目前胜负已定,但是接下来几天,双方还会完成余下的两场比赛。和其他围棋比赛不同的是,这次的获胜选手因为不通情感,没有表露半点喜悦。
谷歌阿尔法狗(AlphaGo)是专门开发出来进行围棋对弈的人工智能。这场围棋竞技是机器首次与九段棋士对决,被不少人认为具有里程碑意义。一个脑洞大开的问题是,既然阿尔法狗已经如此智能,如果教会它开车,是不是比人类更厉害?
阿尔法狗为什么强? 其实人机对弈的故事并非第一个。不少人都会提起1997年IBM研制的超级电脑“深蓝”与国际象棋世界冠军卡斯帕罗夫的那场对决。当时“深蓝”在标准比赛时 限内以3.5:2.5的累计积分击败了人类选手斯帕罗夫,其设计者许峰雄曾经提到,一般的国际象棋手能想到后7步就很不错了,但“深蓝”能想到12步,甚 至40步远。正是计算机强于人类大脑的计算能力,让它在棋盘的全局走势上看得更远,成为取胜的决定性优势。
简 单来说,“深蓝”下棋时,会不断演算每一步落子,尝试不同方法,接着选出一个最好的结果,最后落子。这种“穷举法”对象棋而言行之有效,但是观察上面象棋 和围棋的算法图不难发现,围棋的落子空间和下棋步数要复杂很多,计算堪称指数爆炸级,同样的暴力搜索对计算机而言,难以实现。
现在阿尔法狗连赢李世石3局,那么和“深蓝”相比,它到底强在哪里?
关于这个问题,车云菌请教了地平线联合创始人兼算法副总裁黄畅,具有围棋功底的他看来,阿尔法狗具有了类似人类棋手的“棋感”策略(Policy)。这在以往与人对弈的人工智能中尚未出现,因此堪称里程碑意义。
所谓“棋感”策略,类似一种决策经验。人类棋手在长期学习和磨练中,逐渐培养出的一种直觉。根据棋盘上当下的棋局分布,判断出落子的大致范围。黄畅向车云菌解释,棋感策略让阿尔法狗无需暴力分析所有方法,而是把运算能力集中到几种最可能情况,大大减少运算量。
更深一步的算法层面,黄畅对整套大框架提取了阿尔法狗的三大亮点:
第一,基于深度卷积神经网络学习获得强大的棋感策略和盘面评估能力。
第二,让两只阿尔法狗对弈,用增强学习算法持续提升棋感策略和盘面评估能力。
第三,将棋感策略和盘面评估能力进行巧妙的结合,用蒙特卡洛搜索得到对弈中的最优方案。
值 得注意的是,此处提到的增强式学习是一种训练过程,并且和以往常见的监督式学习框架存在差异。监督式学习框架需要更多人工介入,如果想让机器认识杯子,就 必须搜集足够多的杯子后告诉机器,由机器提取特征学习后掌握。而增强式学习,黄畅打了个比方,更像是驯兽员训练小狗,不用告诉它把抬起爪子,只要通过做对 了有肉吃这种交互,积累反复尝试学会这个动作。黄畅认为,这是一种更加理想的人工智能学习模式,因为所需的人工干预更少。
到此略作小结,通过训练,阿尔法狗最终依靠全盘计算的能力获胜,但棋感的获得让它更好地发挥了全盘计算的优势。当然,也因为这位选手没有任何情感,所以在一些考验心理素质的部分,优于人类对手并略胜一筹。
既然有了棋感,不免让人联想到驾控感。假如人类驾驶员面对一个弯道,操控时拧过方向盘的角度,踩下刹车的力度判断,都会包含着一种人类驾驶经验。阿尔法狗的“棋感”,有没有办法迁移到自动驾驶中去?
黄畅给出的答案是,“很有可能”。
如果用阿尔法狗“棋感”部分的算法框架训练自动驾驶汽车,应该也能在规划控制上大大提升。但是和阿尔法狗的训练过程一样,自动驾驶车的人工智能需要一遍又一遍地在各种情况下开车驾驶,通过增强式学习,直到像小狗看到食物伸出爪子一样,处理每个弯道像老司机一样自然。
在现实中,让自动驾驶汽车实地训练极其危险且成本高昂,因此需要借助自动驾驶模拟器。黄畅介绍,目前有很多做得非常不错的模拟器,只要让负责自动驾驶的人工智能在其中不断演练,也能进行学习。“打赛车电动”也能训练,这和真实路测相比更加安全高效。
BUT,就像开车不全靠是驾控感一样,阿尔法狗这项意义非凡的能力,还不足以让它完成整套自动驾驶。假如用阿尔法狗的整个框架作为底层,设计出的无人驾驶系统,未必强于人类。因为目前自动驾驶的瓶颈,在于感知部分而非控制。黄畅认为,目前自动驾驶研究的感知能力才仅仅接近技术可用,尚未考虑成本、量产等因素。
阿 尔法狗拥有感知能力。在与李世石的对弈现场,它可以利用计算机视觉“看懂”19*19整块棋盘上的黑白子位置。但是和满足自动驾驶所需的算法相比,这还远 远不够。自动驾驶汽车在路上行驶时,要获得360°全方位感知的能力。并且对于强光、弱光、雨雪等天气,都能从容应对。黄畅表示,这对算法提出的要求是不 小的挑战,而且除了算法本身,你还要不少优质的传感器设备,此处涉及的传感器融合,又是一个大课题。
阿尔法狗使 用谷歌云计算服务器,并通过光缆网络连接韩国比赛现场,车云菌在采访中关于运行算法的硬件仍然庞大这个问题,请教了黄畅。黄畅表示,单机还是依靠服务器只 是量变,还不是这次比赛需要关注的重点,硬件发展迅速,未来在手机大小的设备上完成运算不会太远,这一点在自动驾驶汽车上也同样适用。算法上的突破才是质变,也是这次人机对弈中阿尔法狗带来的最出色表演。