L4自动驾驶为什么遥遥无期
写这篇文章呢,就是想简单探讨一下为什么当下这些L4自动驾驶领域的独角兽企业都面临着巨大挑战,而这些挑战为什么在短时间内很难被解决。过去两年,随着各大公司纷纷涌入自动驾驶市场,我们可以明显看到,目前还没有一家公司能够实现大规模的L4无人驾驶运营。本质上,这是因为当前的L4自动驾驶在路径规划(即所谓的Planning)方面遇到了一个难以克服的问题。在本文中,我将以几家知名自动驾驶公司的近况为例,辅以从2012年Alexnet引领的深度学习热潮至今(2023年)的一些关键性进展,来帮助读者了解为何我们至今仍未成功实现L4级别的自动驾驶。整篇文章没有任何大纲,直接由ChatGPT(GPT-4)辅助完成,所以也可以看作是对GPT-4的一个测试,我也会在下一篇文章详细讲讲我这三个月来对ChatGPT的体验,以及一些个人看法。
言归正传,L4自动驾驶主要有两个赛道,一个是Robot taxi,另一个是Robot truck。Robot taxi的核心逻辑在于,随着人口老龄化,人力成本将越来越高,而自动驾驶技术可以降低这些成本。实际上,这个市场非常庞大,滴滴和Uber的年度总收入就是一个很好的估计指标。如果通过自动驾驶解决方案降低驾驶员成本,这些公司的毛利率将显著提高,年营收有望达到650亿美元左右,与Meta和谷歌相当。Robot truck则主要关注货运车,因为货运车驾驶员往往需要长时间驾驶,存在疲劳驾驶风险,而自动驾驶技术可以提高运送货物的效率和安全性。
然而,目前这两个方向以目前的技术几乎不可能实现,问题主要集中在路径规划上。在城市环境中,Robot taxi需要应对复杂的路况和各种障碍物,这是一个非常具有挑战性的问题。而对于Robot truck,尽管在高速公路上行驶相对容易一些,但仍需解决如何在高速公路上安全合并车道(lane merge)等问题。这两者都只有接近到人类驾驶的水平时,才有可能盈利,也才有可能把这些Corner cases扔给保险公司,让他们来承受这个损失。–
目前的自动驾驶被人为地分为了三个部分:环境感知(Perception)、行为预测(Behavior Prediction)和路径规划(Planning)。但实际上,之所以会分成这三部分完全是因为,五六年前,自动驾驶刚刚火的时候,这些做自动驾驶的人,他们都是不怎么懂Planing应该怎么做的人,如果懂Planning应该如何做,他其实一眼就能看出来这三块本质上可以放到一个框架下去解决。目前,大家可以发现环境感知问题已经基本解决,但路径规划问题仍然困扰着自动驾驶领域。这是因为路径规划问题本质上是一个多智能体决策问题(Multi-agent decision manking)。一个众所周知的例子是2016年的AlphaGo,它本质上也是一个多智能体决策问题。当前我了解到,Argo AI和Too Simple都遇到了一些问题。在这里,我将根据收集到的信息简要分析一下它们所面临的问题。首先从Too Simple开始讨论。之前有一个新闻提到,Too Simple将其国内业务剥离出来,专注于开展美国的无人卡车业务。那么,这背后的原因是什么呢?除了技术挑战外,Robot truck领域还面临着政府关系方面的挑战。例如,在从旧金山到纽约的跨越众多地区的运输过程中,每一个地区的政府都需要批准它的行驶,这无疑是一个相当困难的任务,同样的情况也存在于国内市场。
除此之外,Too Simple的CEO还采取了一个非常奇怪的策略:创建了一个新能源卡车初创公司。或许他们认为,为了实现自动驾驶卡车的目标,有必要重构现有卡车的硬件结构。这样一来,Too Simple公司内部那些与传统车企有联系的股东必然会对此表示反对。原本,Too Simple的商业模式是为这些传统卡车公司开发L2、L3甚至L4级别的解决方案。如今,Too Simple却要自己涉足卡车制造业,这让传统卡车公司感到了被取代的压力。这种情况与华为近来一直坚持不涉足造车业的立场颇为类似。
说回Robot taxi,最近的一家叫Argo AI的公司也发现自己的L4自动驾驶技术难以实现,目前它已经融资了几十亿甚至上百亿美元,估值达到了数百亿美元。尽管公司雇佣了2000多名员工,他们仍然无法取得突破。为什么这么多员工却无法做出成果呢?要回答这个问题,我们需要切入一下深度学习的发展史。深度学习真正开始活跃是在2012年,当时在ImageNet的图像分类竞赛中,出现了一款名为AlexNet的神经网络。AlexNet一举打败了传统的基于特征的浅层机器学习方法,如SVM。它使图像分类的准确率一下子提高了近20%。AlexNet是图灵奖得主Jeffrey Hinton实验室的产物,尽管Jeffrey Hinton当时确信深度学习会比传统方法更优秀,但他并没有料到效果会如此显著。AlexNet的第一作者是Alex,而第二作者是现在OpenAI的联合创始人Ilya。事实上,当时真正坚信深度学习能够战胜所有传统方法的人,是现在OpenAI的联合创始人Ilya。这个人特别有远见,具有极高的洞察力。想象一下,当时在2012年,如果你对深度学习技术有所了解的话,你要进行深度学习,就必须要实现反向传播(Backpropagation)算法,对吧?而现如今,我们有了像PyTorch和TensorFlow这样的工具,它们可以自动帮助我们完成这一过程。但是在当时,这样的工具是完全不存在的。因此,当时的Alex和Ilya一起编写了一套C++代码,手动实现了反向传播的框架。这意味着要制作出AlexNet所需要的工程努力是非常巨大的。只有当你非常坚信这个技术能比其他模型有质的提升时,你才会有信心将这个项目坚持下去,对吧?在2020年8月,OpenAI发布了一个名为GPT-3的语言模型。这样一个如此庞大的语言模型,仅仅完成模型的前向传播,就需要将模型参数分布在众多GPU上。为了搭建一套能够进行训练和推理的基础设施,需要耗费大量工程师的时间和努力,花费不菲的资金。而且,并非第一次训练就能成功,这绝对不可能。我还想再强调一下,这是之前全世界都不确定的能否成功的道路。因此世界上第一个成功完成这项任务的人,一定在此过程中遭遇了巨大的质疑,挑战和困难。
实际上,据我了解,Google在进行大型模型训练时,有时会突然发现梯度爆炸,而且这种情况是不可复现的。这个问题为什么会出现呢?虽然训练过程中的随机种子设定得当,但梯度爆炸的原因其实是硬件层面的问题。例如,GPU中的晶体管发生异常电子跃迁,进而引发浮点数错误。这样的问题是很难被发现的。只有经过成千上万次的尝试和错误,人们才能意识到这样的问题,并需要额外的技巧来解决。因此,最终实现GPT-3这样的成果,背后一定投入了大量的资金,可能达到千万甚至亿美元的沉没成本。而作为这样一家公司的CEO,你需要让大家坚定信念,去完成这件充满挑战的事情。你要让大家相信,尽管我们已经投入了很多,但我们一定能够成功。实际上,GPT-3这样的大模型问世后,NLP研究领域就被彻底革新了。原本研究界认为的难题,在大模型面前变得不值一提。
接下来就是2016年横空出世的AlphaGo,它在当时表现非常出色。与之相伴的还有一个领域,名为Multi-Agent Reinforcement Learning,尽管AlphaGo也是由这个技术研发出来的,但它只是一个较为特殊的案例。从16、17年开始,学术界就对Multi-Agent Reinforcement Learning展开了研究,到现在一部分研究者相信对于世界上最具挑战性的问题,传统的方法如控制、最优控制和自适应控制等已无法解决,需要转向强化学习技术。尽管如此,截至2019年,这一领域在工业化方面尚无显著成果。同一时刻的15、16年,自动驾驶风头正劲,大家都认为,既然计算机视觉领域发展如此迅速,那我们是不是很快就能实现自动驾驶了?这个想法听起来非常合理,大家都觉得只要能完美理解周围环境,那驾驶汽车就变得非常简单了。于是,那个时候涌现出了很多创业公司,如侯晓迪创立的Too Simple,还有楼天城创建的Pony.ai,以及国内的Momenta等。
在过去的几年里,perception技术发展得特别快。实际上,在2015-2016年之后,自动驾驶的perception系统已经变得相当可靠。现在唯一剩下的问题就是所谓的Long-Tail问题,也就是说,总会有一些corner case很难处理。比如之前那起Tesla在高速上撞车的事故,就是因为系统把一辆洁白无瑕的卡车误认为是一朵白云,然后撞上去了,显得非常愚蠢。然而,从商业化的角度来看,这些corner case并不是一个大问题。只要这些corner case的数量足够少,完全可以让保险公司来承担这部分风险。也就是说,尽管这个算法有一些局限性,但它仍然可以为很多人提供服务。这导致当时创投圈都疯了,觉得自动驾驶即将实现,于是纷纷向这些公司投资,期待大赚一笔。然而,结果证明大家过于天真。不仅是普通人,就连来自Google的Waymo这样的公司,甚至可能是世界上最顶尖的研究人员,都有这样的想法,大家都很天真。正因为如此,Waymo在2016年和2017年的估值一度飙升至2000亿美元,因为大家认为这家头部公司必定会占据整个市场。然而,到了2018年,Waymo的估值突然暴跌至300亿美元,只剩下原来的七分之一。为何会发生这种情况?事实上,大约在2018年,人们开始确信自动驾驶规划并非易事,不能仅靠一套规则就完成这项任务。
因此,在18、19年,Wemo成立了一个研究部门,该部门汇集了世界上最顶尖的一批研究者,共同研究解决方案。一般而言,一个快速商业化的公司不太可能将最优秀的团队从商业化业务中抽离出来,让他们自主研究并发表论文。然而,唯一能解释这一现象的原因便是工业界存在业务的情况下真的很难解决这个问题。从2019年到2022年,Wemo的研究人员发表了大量关注预测方面的文章,当然也涉及到规划和感知方面。他们观察到预测这一领域的出现实际上是因为当时自动驾驶的传统方法还在普及,如基于规则、优化或搜索的方法,以及一些非机器学习方法。尽管有一些机器学习方法也在其中,但整体框架仍以规则、优化和硬编码为主。这就是为什么大家会去研究预测,例如,在编写一套规则时,可能需要非常精细的预测其他车辆的行为。仅凭一个粗略的方向,例如车辆向右行驶,很难编写出合适的规则。因此,Waymo的研究人员可能会发表很多以预测为基础的论文。在个人看来,这些论文在未来三五年内很可能被取代,失去价值。虽然目前这些研究仍具有价值,但最终像基于规则或浅层机器学习的图像分类方法一样,都将被深度学习完全取代。
来到2020年,GPT-3的出现彻底改变了NLP领域的格局。它可以完成从一种语言到另一种语言的任务。当时,OpenAI思考是否可以开发一个从语言到图像的任务,例如,描述一个在喝可乐的鸭子,计算机能否直接理解这句话并生成一张与描述相符的图像。基于这个想法,DALL·E应运而生。此外,一位UC Berkeley的博士生提出了Diffusion Model的雏形。如今,Diffusion Model已经发展成为一家名为Stable Diffusion的独角兽公司,估值数十亿美元。目前,Diffusion Model和AI生成内容领域非常火爆,因为它可以生成高分辨率、精美的画面。我猜想如果我们能够将这套技术进行控制,并实现序列生成,这将进一步推动电影行业的工业化进程。未来,计算机图形学等领域也可能会被基于AI的方法所取代,或者说,AI将成为这一领域的主流方法。
纵观深度学习的发展史,可以追溯到上世纪80年代,大家都开始提出一些初步的理念,为深度学习的发展奠定基础。回顾过去十年,我们可以看到学术界和工业界的共同努力。在这其中,Google Research、Google Brain、DeepMind和OpenAI虽然技术上属于工业界,但它们在很大程度上也是学术界的反应。值得思考的是,如果在2015-2016年期间,没有计算机视觉领域的先驱者,如何凯明等人,开发了基于深度学习的感知技术,现在的自动驾驶公司,如Pony和Waymo,会不会还在使用基于规则的方法进行图像分类和识别?很有可能,这些公司目前还在使用这些技术。正因为学术界已经为我们提供了计算机视觉和感知技术,自动驾驶公司可以直接将这些技术应用到自己的产品上。然而,当遇到路径规划问题时,他们就束手无策。这是因为学术界尚未提出一种易于应用的方法来解决这个问题。因此,这些公司目前还在使用基于规则、基于优化和基于搜索的方法进行路径规划,尽管这些技术最终可能会被淘汰。展望未来,可能会有一种革命性的、范式转变的工作出现,使我们能够实现纯粹的相机解决方案,就像特斯拉所做的那样。通过多视角的相机观察周围环境,最终使用一套算法,直接告诉我们如何驾驶,甚至达到人类水平的驾驶能力。事实上,人类在驾驶时,只需要观察前方、侧方和后方的情况,再加上一个大脑,就可以实现驾驶。换句话说,我们所需要的信息其实并不多。那么,激光雷达(LiDAR)这些精细的深度信息和精确的定位究竟有什么用呢?我们在驾驶时,不可能通过目测来判断其他车辆与我们的距离,精确到分米级或毫米级。只需要大致了解周围车辆的位置,就足够我们做出判断。
我仅从当前这一时刻发表我的猜想,而未来或许会更加神奇和令人惊叹,谁知道呢?