在自动驾驶的感知功能部分,行业内部分成两派:视觉和激光雷达。特斯拉是视觉技术最坚定的护法者,他们甚至使用最恶毒的词将激光雷达贬的一文不值。但是按照埃隆·马斯克(Elon Musk)的行事作风,在“诅咒”某些事物的背后,他还必须“敬畏”某些事物。 当系统希望变的更可靠时,关键原则是使系统“冗余”。因此,汽车工业中的大多数人,都在不停的给汽车添加东西以保证可靠度。 但是特斯拉却反其道而行。它一直在给汽车减东西:减少汽车线束的长度,减少车身零件数,减少制造步骤。他们从技术要足够便宜,才能方便快速实施商业化方面考虑,这样才能让用户更快的接受产品。 正因如此,就不难理解埃隆·马斯克(Elon Musk)对激光雷达无下限的公开贬损: 2015年10月-激光雷达毫无意义,对于自动驾驶汽车来说并非必需。 2017年4月-激光雷达非常糟糕,他们将放弃激光雷达,记住我的话,这是我的预测。 2018年2月-激光雷达价格昂贵,丑陋且不必要。 当然,从事实来看,马斯克拥有足够的资本来鄙视激光雷达,因为依赖视觉解决方案的特斯拉,目前被公认为是地球上将批量生产辅助驾驶的最佳公司。 埃隆·马斯克(Elon Musk)真的会彻底抛弃激光雷达吗?事实并非如此,他清楚地知道视觉和激光雷达的优缺点,同时不断推动用视觉技术来做本只能由激光雷达完成的事。 特斯拉为什么不使用激光雷达? 从理论上讲,视觉和激光雷达是完美的补充。视觉解决方案中的图像传感器可以获得高帧速率和高分辨率的周围复杂环境信息,而且价格便宜。但是,图像传感器是无源传感器,并且不发光。图像质量受环境亮度的影响很大,在恶劣环境下完成传感任务的难度也会大大增加。 激光雷达是一种主动传感器,它通过发射脉冲激光并检测目标的散射光特性来获取目标的深度信息。具有精度高,范围大,抗干扰能力强的特点。但是,由激光雷达获得的数据稀疏,混乱且难以直接使用,并且激光的单色特性使其无法获得颜色和纹理信息。 因此,基于可靠性考虑,业内多数派都在研究如何将视觉与激光雷达整合在一起,以实现更准确的环境感知。如国内的四足机器人研发公司蔚蓝科技,他们研发的四足机器人——阿尔法机器狗AlphaDog就是采用开放的业界标准,使得阿尔法机器狗能够无缝集成和连接各类其他先进技术,其中就包括视觉派的物体识别视觉定位技术,雷达派的毫米波雷达地图构建(V-SLAM)技术。当然了,得益于开放的接入标准,后期可视用户需求研发搭载特定的拓展性功能模块,如温度感应器,烟雾感应器等等。 但是在马斯克看来,汽车和道路都是由人为人设计的。由于人类可以通过视觉收集信息+大脑处理信息来安全驾驶,这意味着也可以以相同方式实现自动驾驶。如果强行添加激光雷达是一种“超人的感觉”,那就像走路时握着拐杖的人。 显然,拐杖不是创新,而是限制创新。 另一方面,由于增加了激光雷达,导致激光雷达的高成本和电气系统的复杂性与特斯拉一贯的减法制造理念不一致。 视觉的瓶颈在于算法,而激光雷达的瓶颈在于原理。显然,视觉具有更大的发展潜力,并且在理论上也具有较高的上限。做正确的事情而不做简单的事情也是马斯克的风格。 至于激光雷达在公共场合经常出现的口臭,这种权利体现了特斯拉和埃隆·马斯克出色的公共关系能力。 特斯拉如何克服视觉上的劣势? 实际上很难从2D平面图像中推断出准确的3D真实场景。 以下图中的MPV为例。如果仅查看左侧的2D图像,似乎标记有视觉和激光雷达的形状是准确的,但是如果将它们放置在3D场景中,则会找到标记有视觉方案的形状。它不仅长而狭窄,而且缺少汽车的侧面。 因为在2D图像中很容易找到车辆的左前角和右后角,但是左后角没有明显的特征。由于车辆后部的倾斜和向上变窄,总宽度将被低估。同时,依靠发动机舱盖超过车顶的部分来估计汽车的长度也会导致在深度方向上的高估。 在高亮度环境中,这只是一个相对常规的对象。如果环境变暗,或者添加了更多的遮挡物和障碍物,情况将变得更加极端。例如,在深色的两轮车中,很难区分纯视觉解决方案。 因此,基于基本算法解决视觉信息的准确处理是特斯拉自动驾驶系统的绝对核心技术。 自动驾驶功能的实现不仅仅是技巧,记忆和经验,而不仅仅是推理和计算。深度学习算法旨在提高自动驾驶的成熟度。特斯拉在完善视觉算法方面的优势之一是通过海量车主驾驶数据进行神经网络训练,从而连续覆盖更多的工作条件和场景,并实现无限接近人类判断力的视觉算法的目标。 一方面,这取决于特斯拉自动驾驶硬件的强大计算能力。另一方面,它是特斯拉在“模式识别模型”领域的绝对领先者-超大数据规模,多样化的数据覆盖范围和真实的数据场景。归根结底,全球超过一百万的特斯拉车主都是特斯拉自动驾驶算法培训的测试者。 我要在这里提到的是特斯拉独特的“阴影模式”,这是特斯拉大幅减少因数据量过多而导致的培训成本增加而又不影响算法训练的速度和准确性的关键。 隐藏在驾驶员身后的“阴影”始终在观察外部环境和驾驶员的行为。如果驾驶员在特定场景中的操作与预期的“阴影”一致,则不会报告数据;如果“影子”发现其判断与驾驶员的操作不匹配,则这次将数据发送到特斯拉的服务器,并对算法进行校正训练。达到一定水平后,它将再次发送到车辆。 有可能用视觉代替激光雷达吗? 特斯拉希望达到的最终目标是使其视觉处理能力达到激光雷达的可见度,激光雷达在业界被称为“伪激光雷达”。 激光雷达穿过每个激光点的距离,以实时恢复环境。特斯拉将预测每个像素的深度,然后将其投影以复制激光雷达的功能。 分析2D图像的每个像素,并将其还原为真实的3D场景。毫无疑问,核心能力仍然是图像处理算法和支持该算法的高计算能力硬件。这也是特斯拉视觉解决方案进一步升级的体现。 不难理解为什么特斯拉必须将其自动驾驶系统的开发深化到芯片级。 在特斯拉通过“伪激光雷达”还原的公开显示的3D地图中,激光雷达的效果已经非常接近在明亮环境中激光雷达的效果,但是我相信这只是一个阶段性的结果,还有更多场景需要进一步研究。自2018年以来才在学术界进行报道的“伪激光雷达”对特斯拉来说也是一个非常具有挑战性的问题。 但是,如果特斯拉要靠纯视觉解决方案来解决L4甚至L5级别的全自动驾驶,这是一个必须解决的难题,必须通过强大的计算能力来解决将2D图像转换为3D真实场景的问题。 是视觉方案变强的速度更快,还是激光雷达方案成本降低的更快?没人能预测结局,因此才会产生今天的路线争论,但是每一种路线的支持者都坚信,自己会笑到最后。这一点在极端自信的马狂人身上尤为明显 |
