客戶端下載

          logo

          當前位置:首頁 > 資訊 > 資訊詳情

          理想汽車VLA司機大模型,代表著智能駕駛從動物進化到人類?

          十三先生Studio | 05-09

          20981

          恰逢今年是理想汽車成立的第10年,也是AI的大風口下;在2025年5月7日,理想AI Talk第二季正式開播,這一期的主講內容是:理想VLA司機大模型,從動物進化到人類。理想汽車董事長兼CEO李想重點分享了對于人工智能的最新思考,VLA司機大模型的作用、訓練方法和挑戰,以及對于創業和個人成長的見解。

          在聊這個話題之前呢,我們先來聊一下什么是什么是規則算法、什么是端到端,以及最近最火的VLA,因為很多人都不知道。

          首先規則算法簡單理解就是按照軟件工程師輸入的規則去運行,在一些沒有規則覆蓋的極端情況下,因為缺乏對應的規則程序,就容易不知所措了。運行鏈路:感知-規劃-控制,感知模塊包含了感知和預測。

          端到端指的是感知端和控制端,也就是輸入端和輸出結果端,通過神經網絡替代了感知和規劃這兩大模塊,神經網絡大模型根據感知和預測直接輸出控制結果,進行對應的車輛減速轉彎等操作,不再根據給定的規則走,也不依賴地圖,邏輯像人。其中的重點就是學習駕駛這件事情,因此大模型需要進行大量的場景數據訓練,可能還會存在一些無法識別的場景,運行中很難和人類進行溝通,除了直接接管。

          端到端+VLA司機大模型,VLA就是Vision-Language-Action Model的縮寫,中文全稱為視覺語言行動模型。就像最近很火的AI語言大模型,VLA可以根據司機輸入的語言文字圖片視頻等信息,讓車輛理解場景,具備思考能力,判斷能力以及相應執行能力,做一個AI司機。

          李想對AI工具的理解

          當前李想將AI工具分為三個層級,分別是信息工具、輔助工具和生產工具。目前,大多數人將AI作為信息工具使用,但信息工具常伴隨大量無效信息、無效結果和無效結論,僅具參考價值。成為輔助工具后,AI可以提升效率,例如現在的輔助駕駛,但仍需人類參與。未來,AI發展為生產工具后,將能獨立完成專業任務,顯著提升效率與質量。

          李想表示:“判斷Agent(智能體)是否真正智能,關鍵在于它是否成為生產工具。只有當人工智能變成生產工具,才是其真正爆發的時刻。就像人類會雇傭司機,人工智能技術最終也會承擔類似職責,成為真正的生產工具。”

          VLA-向人類司機一樣工作的司機大模型

          目前的L2、L2+組合駕駛輔助仍屬于輔助工具階段,而VLA(Vision-Language-Action Model,視覺語言行動模型)能夠讓AI真正成為司機,成為交通領域的專業生產工具。對理想汽車而言, 未來的VLA就是一個像人類司機一樣工作的司機大模型”。

          VLA的實現不是一個突變的過程,是進化的過程,經歷了三個階段,對應理想汽車輔助駕駛的昨天、今天和明天。第一階段,理想汽車自2021年起自研依賴規則算法和高精地圖的輔助駕駛,類似“昆蟲動物智能”。第二階段,理想汽車自2023年起研究,并于2024年正式推送的端到端+VLM(Vision Language Model,視覺語言模型)輔助駕駛,接近“哺乳動物智能”。

          端到端模型在處理復雜問題時存在局限,雖可借助VLM視覺語言模型輔助,但VLM使用開源模型,使其在交通領域的能力有限。同時端到端模型也難以與人類溝通。為了解決這些問題并提升用戶的智能體驗,理想汽車自2024年起開展VLA研究,并在多項頂級學術會議上發表論文,夯實了理論基礎。

          在端到端的基礎上,到第三階段,VLA將開啟“人類智能”的階段。它能通過3D和2D視覺的組合,完整地看到物理世界,而不像VLM僅能解析2D圖像。同時,VLA擁有完整的腦系統,具備語言、CoT(Chain of Thought,思維鏈)推理能力,既能看,也能理解并真正執行行動,符合人類的運作方式。

          VLA訓練過程模擬人類學習,對齊人類價值觀

          VLA的訓練分為預訓練、后訓練和強化訓練三個環節,類似于人類學習駕駛技能的過程。預訓練相當于人類學習物理世界和交通領域的常識,通過大量高清2D和3D Vision(視覺)數據、交通相關的Language(語言)語料,以及與物理世界相關的VL(Vision-Language,視覺和語言)聯合數據,訓練出云端的VL基座模型,并通過蒸餾轉化為在車端高效運行的端側模型。

          后訓練相當于人類去駕校學習開車的過程。隨著Action(動作)數據的加入——即對周圍環境和自車駕駛行為的編碼,VL基座變為VLA司機大模型。得益于短鏈條的CoT,以及Diffusion擴散模型對于他車軌跡和環境的預測,VLA具備實時性的特點,實現了在復雜交通環境中的博弈能力。

          強化訓練類似于人類在社會中實際開車練習,目標是讓VLA司機大模型更加安全、舒適,對齊人類價值觀,甚至超越人類駕駛水平。強化訓練包含兩部分:一是通過RLHF(Reinforcement Learning from Human Feedback,基于人類反饋的強化學習)完成安全對齊,使模型遵守交通規則,貼合中國用戶的駕駛習慣;二是將純強化學習模型放入世界模型中訓練,提升舒適性,避免碰撞事故,遵守交通規則。經過預訓練、后訓練和強化訓練后,VLA司機大模型即可部署至車端運行。

          VLA司機大模型以“司機Agent(智能體)”的產品形態呈現,用戶可通過自然語言與司機Agent溝通,跟人類司機怎么說,就跟司機Agent怎么說。簡單通用的短指令由端側的VLA直接處理,復雜指令則先由云端的VL基座模型解析,再交由VLA處理。

          超級對齊確保AI決策安全,世界模型破解AI黑盒難題

          除了提升專業能力,VLA司機大模型還需解決安全性和模型黑盒的問題。

          模型能力越強,越需要職業性約束,以確保能力下限。為了保障VLA司機大模型能夠實現職業司機般的安全和舒適,避免學習加塞等違規行為,理想汽車在強化訓練環節投入大量資源,并于2024年底組建超過100人的超級對齊團隊,相當于為司機Agent注入職業素養。

          為解決模型的黑盒問題,理想汽車結合重建和生成兩種路徑,打造了真實、符合物理世界規律的世界模型,覆蓋所有交通參與者和要素。基于世界模型的仿真能力,VLA可以在世界模型中低成本、準確地驗證現實問題,提升解決問題的效率,有效應對模型黑盒帶來的挑戰。

          判斷司機Agent是否是個好司機,有三個關鍵標準:專業能力、職業能力和構建信任的能力。VLA司機大模型提升了專業能力,超級對齊增強了職業能力,VLA通過理解自然語言、具備記憶能力提升了構建信任的能力。

          李想:大型企業的基本功和能力永遠無法被逾越

          在輔助駕駛方面,由于英偉達Orin-X芯片無法直接運行語言模型,端到端+VLM的輔助駕駛方案對部分企業來說仍具挑戰。理想汽車依托自有編譯團隊,自研底層推理引擎,使芯片可通過INT4(4比特整型)量化的方式運行VLM。同時,憑借芯片、控制器設計和自研汽車操作系統等綜合能力,理想汽車實現了讓雙Orin-X芯片和Thor-U芯片運行同等規模的VLA司機大模型。得益于DeepSeek的開源,理想汽車在VLA司機大模型的語言能力研發上提速顯著,節省了近9個月的時間和數億元成本。盡管如此,理想汽車仍選擇加大投入,在基座模型上投入超預期3倍的訓練卡,專注打造適配多場景的自研模型。李想表示:“我們可以站在巨人的肩膀上,但它只是其中的一部分。”在受益開源的同時,理想汽車也選擇開源自研的汽車操作系統——理想星環OS,回饋社會。

          水滴汽車公眾號
          掃碼關注,獲取更多汽車資訊
          水滴汽車
          掃碼下載水滴汽車APP

          熱門評論(0)

          加載更多

          熱門車系資訊

          更多 >

          D7 DMH

          12.58-14.58萬元

          雅閣

          17.98-25.98萬元

          奧迪 e-tron

          54.68-64.88萬元

          杰德

          12.99-18.38萬元

          思域

          11.99-16.99萬元

          1. 北京水滴交互網絡科技有限公司

          Copyright @ 水滴汽車 京ICP備17030485號-2 京公網備 11010102003639號