长期以来,Waymo一直吹嘘自己与谷歌(Google)旗下DeepMind的关系,以及数十年的人工智能研究经验,认为这是其在自动驾驶领域相对于竞争对手的战略优势。现在,这家alphabet旗下的公司正在更进一步,为其机器人出租车开发一种新的训练模型,该模型基于谷歌的多模式大语言模型(MLLM) Gemini。
Waymo今天发布了一份新的研究报告,介绍了一种“端到端多模式自动驾驶模型”,也被称为EMMA。这种新的端到端训练模型处理传感器数据,生成“自动驾驶汽车的未来轨迹”,帮助Waymo的无人驾驶汽车决定去哪里以及如何避开障碍物。
但更重要的是,这是自动驾驶领域的领导者设计在其运营中使用mlm的首批迹象之一。这是一个迹象,表明这些法学硕士可以摆脱目前作为聊天机器人、电子邮件组织者和图像生成器的用途,在一个全新的环境中找到应用。在研究报告中,Waymo提议“开发一种自动驾驶系统,其中MLLM是一等公民”。
端到端多模式自动驾驶模型,也称为EMMA
这篇论文概述了自动驾驶系统在历史上是如何为各种功能开发特定的“模块”的,包括感知、映射、预测和规划。多年来,这种方法已经被证明是有用的,但由于“模块之间累积的错误和模块间有限的通信”,在扩展方面存在问题。此外,这些模块可能难以对“新环境”做出反应,因为从本质上讲,它们是“预先定义的”,这可能使其难以适应。
Waymo表示,像Gemini这样的mlm为其中一些挑战提供了一个有趣的解决方案,原因有二:聊天是一个“多面手”,接受了大量从互联网上抓取的数据的训练,“这些数据提供了丰富的‘世界知识’,超出了普通驾驶日志所包含的内容”;它们通过“思维链推理”等技术展示了“卓越”的推理能力,这种技术通过将复杂的任务分解成一系列逻辑步骤来模仿人类的推理。
Waymo开发EMMA是为了帮助其机器人出租车在复杂的环境中导航。该公司确定了几种情况,该模型可以帮助无人驾驶汽车找到正确的路线,包括遇到各种动物或道路上的建筑。
特斯拉(Tesla)等其他公司也广泛表示要为自己的自动驾驶汽车开发端到端模型。埃隆·马斯克(Elon Musk)声称,其最新版本的全自动驾驶系统(12.5.5)使用了“端到端神经网络”人工智能系统,可以将摄像头图像转换为驾驶决策。
这清楚地表明,在部署真正的无人驾驶汽车方面领先于特斯拉的Waymo,也对开发端到端系统感兴趣。该公司表示,其EMMA模型在轨迹预测、目标检测和道路图理解方面表现出色。
该公司在今天的一篇博客文章中表示:“这表明了未来研究的一条很有前途的道路,在这条道路上,更多核心的自动驾驶任务可以在一个类似的、放大的装置中结合起来。”
但EMMA也有其局限性,Waymo承认,在该模型投入实践之前,还需要进行进一步的研究。例如,EMMA无法整合来自激光雷达或雷达的3D传感器输入,Waymo称这“在计算上很昂贵”。而且它一次只能处理少量的图像帧。
使用mlm来训练机器人出租车也存在风险,这在研究论文中没有提到。像双子座这样的聊天机器人经常会产生幻觉,或者在阅读时钟或计算物体等简单任务上失败。当Waymo的自动驾驶汽车在繁忙的道路上以每小时40英里的速度行驶时,它几乎没有犯错的余地。在大规模部署这些模型之前,还需要进行更多的研究,Waymo对此很清楚。
该公司的研究团队写道:“我们希望我们的研究结果能激发进一步的研究,以缓解这些问题,并进一步发展自动驾驶模型架构的最新技术。”