开云kaiyun体育app入口登录官网 自动驾驶时刻竞争升级,VLA之后是什么?

文 | 极智 GeeTech
2026 年,自动驾驶行业的内卷逻辑,正在发生第三次重构。
短短数年间,行业快速走罢了硬件堆砌竞赛、端到端算法博弈两个阶段,以小鹏、联想为代表的新势力车企和祯祥、长城等传统车企扎堆入局 VLA(视觉 - 言语 - 动作)模子,成为现时自动驾驶时刻迭代的进军派别之一。
凭借"视觉感知 + 言语推理 + 动作输出"的三位一体架构,VLA 料理了传统自动驾驶最大的痛点:看得懂路况,却不懂路况逻辑。但 VLA 的弱点也十分闪现,依靠言语模子进行推理,就需要视觉到言语、言语到动作的两次翻译,而翻译就会导致缺点,反应也更慢。
行业竞争的霸道性在于"刚追上主流,就迎来新迭代"。当一部分厂商还在打磨 VLA 量产落地、优化推理速率与场景泛化才略时,华为、小米等玩家却以为:VLA 并不是自动驾驶的终极形态,仅仅从辅助驾驶走向全自动驾驶的过渡时刻。的确的下半场竞争,早已对准 VLA 之后的下一代时刻范式。

VLA 若何重塑自动驾驶底层逻辑?
想要看懂 VLA 的局限与翌日地点,起初要厘清自动驾驶十年三代时刻范式的迭代逻辑,每一次迭代,都是对前一代时刻短板的绝对颠覆。
第一代是轨则运转期间,亦然最原始的自动驾驶形态。早期自动驾驶饱胀依托工程师手写百万行级 C++ 代码,通过预设固定例则应酬各种路况。系统的中枢逻辑是"匹配轨则、机械奉行",优点是踏实可控、可解说性强,瑕疵是相配僵化。面临未预设的突发场景、异形路况、混行交通,系统会平直决策失效,无法适配复杂的确路况,这亦然早期辅助驾驶只可局限于高速巡航的中枢原因。
第二代是端到端 AI 期间,以特斯拉 FSD V12 为象征性开始。行业绝对打消模块化拆分与东谈主工轨则堆砌,搭建"像素输入、动作输出"的全神经汇注架构,通过海量的确路况数据闇练,让 AI 自主学习行驶决策。这一代时刻料理了传统轨则算法僵化、迭代慢的问题,大幅训诲了自动驾驶平顺度与场景适配性。但其也存在致命短板,独一感知才略,莫得和会才略。AI 能识别破损物、车谈线,却无法和会场景背后的逻辑,不懂交庸俗识,极易出现"识别到但误判、避险生硬、决策辞别理"的问题。
第三代即是当下的 VLA 期间,亦然近两年自动驾驶行业的主流形态。VLA 在端到打量觉架构的基础上,加入自然言语推理才略,构建起"视觉感知天下、言语和会逻辑、动作输出决策"的完整闭环。不同于纯视觉端到端模子的"直观式决策",VLA 不错像东谈主类司机不异,先识别路况、再和会场景、临了制定行驶战略,完好适配城市复杂路口、东谈主车混行、临时施工等高频复杂场景,让高阶无图智驾的确具备量产实用性。

VLA 实质上是一种端到端的智能系统,通过谐和的神经汇注将多模态感知与高层逻辑推理、底层动作奉行如胶似漆。其中枢价值是将正本互相寂然的感知模块(看)、逻辑模块(想)与奉行模块(作念)在合并个语义空间内完成了对皆。与传统的自动驾驶系统比较,VLA 不仅大要识别环境中的像素点或几何结构,更能和会这些信号背后的语义逻辑。
VLA 模子由视觉编码器、大言语模子(LLM)主干汇注以及动作解码器三个中枢组件组成。视觉编码器将录像头汇注的多视角图像迁移为高维的特征向量,这些向量包含了环境的空间布局与物体特征;LLM 主干汇注则行为决策中心,行使预闇练经过中蕴蓄的海量天下知识对视觉特征进行逻辑加工;动作解码器则将这些轮廓的推理扫尾迁移为如转向角度、加延缓数值等具体的物理动作。

这种一体化的映射花样使得系统大要以一种更接近东谈主类知道的花样来处理驾驶任务。在东谈主类驾驶经过中,大脑并不会先在相识里标出每一个行东谈主的精准坐标再进行筹画,而是基于对场景的合座和会(如"这个行东谈主可能要过马路")平直产生遁入动作。VLA 模子通过分享的 Transformer 架构,对言语、视觉和动作模态进行协同编码,构建了谐和的语义空间,兑现了从感知和会到动作决策的无缝衔尾。
经过三年迭代,VLA 照旧绝对改写行业花样,抹平了中小厂商的算法差距。如今主流车企的 VLA,在通例城市谈路、高速路况的证实照旧趋于同质化,通俗通行平顺度、场景遮掩率差距极小。同质化内卷的背后,意味着 VLA 的时刻红利照旧见顶,行业亟需新的时刻打破点。
看似完好封神,VLA 四大瓶颈已现
咫尺公论普遍将 VLA 视为自动驾驶的最优解,但在一线时刻团队与行业大众眼中,VLA 从出生之初就自带结构性舛错,这些短板无法通过模子微调、数据增量、算力升级绝对料理,亦然其注定只可成为过渡时刻的中枢原因。
起初是时序逻辑缺失,空间场景推理才略薄弱。现时大都 VLA 模子擅长单帧、瞬时路况分析,对车流变化、行东谈主出动轨迹、多车交互的畅通时序逻辑预判不及。面临鬼探头、近距离穿插、车流突发变谈等高速动态场景,以及车辆在具体空间里的畅通,VLA 枯竭灵明锐知才略,频频出现决策滞后、预判作假,无法兑现东谈主类司机的"提前预判、主动避险"
其次是算力本钱高,及时性难以适配车载场景。VLA 和会视觉、言语、动作三大模块,模子参数目遍及,推理筹画量远超传统端到端算法。车载电控系统条目决策反应速率达到 100Hz,而通用 VLA 言语推理速率普遍不及 10Hz,巨大的算力差导致模子必须大幅精简智力上车。即便部分厂商通过优化推理链路,将时延压缩至 80 毫秒以内,依旧无法绝对治奢睿能化进程与速率不行兼得的矛盾,高算力本钱也大幅举高了高阶自动驾驶的量产门槛。
第三是枯竭物理天下学问,长尾场景泛化才略失效。VLA 的学习逻辑依托海量数据拟合,而非的确和会物理轨则。它不错通过闇练学会遁入通例破损物,却无法自主推理"路面积水易打滑需要延缓""树枝悬空可能掉落需要绕行""雨雪天路面摩擦力着落需蔓延制动距离"等物理学问。关于这类稀缺长尾场景,数据无法饱胀遮掩,VLA 极易出现决策作假,而自动驾驶的安全底线,正好由这些长尾极点场景决定。
临了是跨模态对皆偏差,决策踏实性不及。视觉、言语、动作三大模块存在自然的链路损耗,视觉感知偏差、言语推理缺点、动作输出偏差会层层肖似。在逆光、浓雾、暗光等视觉受限场景,VLA 会出现语义和会与履行路况脱节的问题,出现"识别正确、和会极度、动作偏差"的诡异决策,轻则行驶抑扬、阶梯偏移,重则激勉安全事故,这亦然纯视觉 VLA 决策的先天物理短板。
综上来看,VLA 自然料理了自动驾驶的智能化问题,却没料理安全性、及时性、通用性问题,这亦然行业必须打破 VLA、探索下一代时刻的中枢动因。
下一代自动驾驶中枢时刻地点
站在 2026 年的时刻节点,头部厂商朝着跳出 VLA 的模态和会想维,转向物理天下智能建模的地点发展。VLA 的中枢是看懂、读懂、动作,而下一代自动驾驶时刻,中枢是懂轨则、会推演、能预判,咫尺行业已明确四大主流迭代地点。
其一,多模态物理天下模子,成为下一代时刻中枢底座。天下模子是绝对料理 VLA 物理学问缺失的最优解,亦然特斯拉、华为要点攻坚的中枢地点。不同于 VLA 依托数据拟合场景,天下模子会自主学习现实天下的物理轨则、交通轨则、畅通逻辑,构建完整的编造路况天下。面临从未见过的长尾场景,无需海量数据闇练,就能依托物理学问自主推演最优决策,的确兑现"举一反三"。通俗来说,VLA 是见过才会,天下模子是懂旨趣是以会,从根底上料理长尾场景失效的行业宝贵,是全自动驾驶落地的中枢基础。
其二,时序具身智能架构,开云kaiyun体育app入口登录官网补皆动态决策短板。针对 VLA 时序推理薄弱的舛错,下一代时刻将绝对强化畅通场景建模才略,放弃单帧静态推理模式,搭建时序牵挂与动态推演体系。系统不错及时纪录过往路况信息、预判翌日 3-5 秒车流与东谈主流动态变化,兑现"往常 - 咫尺 - 翌日"的全时序链路决策,贴合东谈主类司机的驾驶想维,绝对料理高速动态避险、复杂车流交互、路口多主体博弈的决策宝贵,大幅训诲高速、城市拥挤场景的行驶安全性与平顺度。
其三,神经象征和会,均衡智能度与可解说性。现时 VLA 属于纯黑盒 AI 模子,决策逻辑不行解说,存在安全监管隐患,也难以知足自动驾驶合规落地条目。下一代神经象征和会时刻,将 AI 深度学习的直观上风与象征逻辑的轨则上风聚拢,AI 考究及时场景感知与快速决策,象征逻辑考究交通轨则、物理学问、安全底线的收敛校验。既保留了大模子的极致智能,又料理了黑盒决策的不行控问题,让每一次制动、变谈、绕行都有逻辑可循,适配高阶自动驾驶的安全合规条目。
其四,轻量化通用自动驾驶基座,兑现普惠量产。VLA 算力本钱过高的问题,极大扫尾了高阶自动驾驶的普及。下一代时刻将依托模子蒸馏、算子优化、边际筹画重构,打造轻量化通用自动驾驶基座,在保留顶级决策才略的前提下,将算力需求大幅压缩,解脱对超高算力硬件的依赖。同期适配多传感器和会架构,以视觉为主、雷达为辅,兼顾低本钱与高安全冗余,绝对料理高阶自动驾驶只可搭载高端车型的痛点,推动全自动驾驶全面下千里至中端量产车型。
新一轮时刻差距正在拉开
时刻迭代的窗口期永远片霎,咫尺国表里头部厂商照旧开启下一代时刻竞速,提前布局 VLA 之后的时刻赛谈,新一轮行业排位赛决然开启。
特斯拉行为行业时刻风向标,正在鼓动端到端时序神经汇注和会神经天下模拟器,中枢推理仍以端到端为主、云表闭环仿真为辅。与 VLA 不同,特斯拉未引入大言语模子用作语义推理,而是对峙"纯视觉端到端 + 物理仿真闇练"阶梯。
FSD 接纳"多模态(录像头 +IMU+ 导航 + 音频)输入 → 时序 Transformer/ 占用汇注 → 平直输出限度信号"的一段式端到端架构,并非传统"感知 - 商酌 - 限度"级联,该结构具备时序建模才略,可视为"端到端时序汇注"。神经天下模拟器(Neural World Simulator)则用于云表生成翌日状况(给定现时状况 + 动作 → 掂量下一帧场景),撑持闭环闇练、长尾场景合成与强化学习。

华为于 4 月推出 WEWA 2.0 架构,包含云表的天下引擎(WE)与车端的天下行径模子(WA)两大中枢部分。在云表引入了多智能体博弈机制与在线强化学习,该机制使模子能与环境及时交互,兑现"边生成、边学习、边考据"的责任花样。在车端,架构以安全风险场表面和 Driving Agent 模块为中枢,通过量化动能场、势能场与行径场来评估及时风险,并生成风险热力争辅助决策。Driving Agent 模块扶植系统自行优化战略以完成出行任务 ,大要训诲在复杂场景下的应酬才略与珍摄性驾驶才略。
小鹏、联想则聚焦量产落地优化,走出互异化迭代阶梯。小鹏汽车在第二代 VLA 上作念出了较为激进的采选——去言语层。小鹏第二代 VLA 接纳"视觉→隐式 Token →动作"的架构,绝对打消显式言语转译,让视觉信号平直生成畅通的驾驶动作,极致压缩推理时延,同期布局虚实聚拢数据闭环,通过编造场景闇练补足长尾场景短板。联想推出 Mind VLA-01 全新架构,针对性料理 VLA 三维空间对皆偏差问题,强化异形路况、复杂地库场景的适配才略,同期鼓动模子轻量化,主打极致量产性价比。
小米汽车于 3 月发布 XLA 知道大模子,在模态扶植、效果与可控性方面有所侧重,其称呼中的" X "意指原生扶植多模态数据输入,可和会激光雷达、视觉、导航、声息及机器东谈主数据等。XLA 接纳潜空间推理时刻,旨在兼顾系统低时延与推理才略,并保持推理经过的可解说性与可回首性。其基于 Xiaomi MiMo-Embodied 具身基座大模子研发,和会了 VLA 和天下模子架构,兑现了从数据运转到知道运转的升级,并因其原生扶植更丰富的多模态数据输入而定名为 XLA 而非 VLA。
自动驾驶企业阵营方面,小马智行 PonyWorld 2.0、文远知行通用仿真模子 WeRide GENESIS、蘑菇车联物理天下多模态大模子 MogoMind 均属于天下模子畛域。天下模子实质上是一套"和会物理天下、在编造环境里与天下博弈"的才略框架,其中枢才略主要有两个方面:一是对物理天下的数字化建模和轮廓;二是基于这么的建模,产生对物理天下合理的联想和掂量,举例通过给定的图片掂量未下天下将会若何变化。
基于天下模子,自动驾驶企业在进行云表仿真闇练时,不错无扫尾从各个维度生成所需场景,大要把柄教导生成视频行为闇练数据,模子迭代速率呈现断代式起初。在无东谈主驾驶上练习落地之后,天下模子有契机进一步探索其他物理 AI 应用,比如复杂机器东谈主限度、自动化物流系统等。
英雄联盟(中国)官方网站平台
合座来看,行业花样照旧了了:二线厂商还在全力落地 VLA、追逐主流;一线头部厂商照旧完成 VLA 时刻吃透,提前布局下一代天下模子与具身智能。翌日两年,车企的自动驾驶才略差距将不再由 VLA 才略决定,而是由下一代物千里着舒缓能时刻的落地速率决定。
VLA 之后,自动驾驶迎来全民普惠期间
从轨则算法到端到端,从 VLA 大模子到物理天下智能,自动驾驶的迭代逻辑永恒了了:缩短东谈主工依赖、训诲通用才略、缩庸东谈主机差距。VLA 行为重要过渡时刻,承载了自动驾驶从"机械辅助"到"类东谈主智能"的跳跃,但其结构性短板注定无法撑持 L4 级饱胀自动驾驶落地。
翌日 2-3 年,跟着 VLA、天下模子的进一步发展,自动驾驶将迎来三大颠覆性变化:
第一,安全兜底才略质变,料理长尾极点场景失效问题,的确兑现全天候、全场景可靠行驶,放手自动驾驶核快慰全隐患。
第二,绝对解脱数据依赖,无需海量场景遮掩,依托物理学问自主适配各种未知路况,料理不同城市、不同路况的适配宝贵。
第三,本钱大幅下探,轻量化模子架构缩短硬件门槛,高阶全自动驾驶将从高端豪车标配,下千里至十几万家用车型,兑现全民普惠。
与此同期,行业竞争将绝对告别"参数内卷、功能堆砌",转头中枢的物理建模才略、时序推理才略、安全可控才略。单纯跟风堆叠大模子、复刻 VLA 功能的厂商,将逐渐被市集淘汰,独一的确掌执底层核默算法与物千里着舒缓能时刻的企业,才有可能拿到通往下一站的船票。
任何时刻赛谈,都莫得不朽的时刻红利,独一不时的底层翻新。VLA 的普及,让行业解脱了初级的硬件、轨则内卷,的确迈入 AI 智驾期间。而 VLA 之后,自动驾驶将不再仅仅"会开车的机器",而是懂路况、懂物理、懂轨则、能预判的车载智能体。这一轮迭代开云kaiyun体育app入口登录官网,早已卓越算法自己,而是自动驾驶从"为东谈主所用"到"与东谈主共生"的终极跳跃。