上海車展,世界模型 + VLA,城區智駕進入下半場
HiEV大蒜粒車研所 | 04-30
19228
作者 |德新
編輯 |王博
隨著智能電動化的深入,汽車已經變成人們生活中最大號的消費電子產品。隨之發生的是,每年的大型國際車展也不再是純粹的汽車潮流的展示,也是尖端科技的秀場。
在上一周開幕的上海車展上,圍繞智能輔助駕駛的先進技術也成為本屆最重要的看點。華為、地平線、元戎等智駕公司都帶來了新一代技術的展示發布。
在全民智駕普及的浪潮中,全行業正在探尋更加先進、更加安全、更加擬人的技術方案,以Thor為代表的下一代計算平臺,以及以世界模型和VLA為代表的新技術架構,正推動我們逼近兌現更高等級智能駕駛的未來。
一、新架構:城區輔助駕駛繼續向上「捅破天」
本屆車展上,智能輔助駕駛技術繼續向前推進,特斯拉FSD入華是最直接的推動力;全民智駕對于更高安全性和更優體驗的追求,是第二重壓力;當然,最終目標是要實現高度自動駕駛。
在未來幾個月即將到來的Thor,以及各家在云端計算資源的大規模投入,也解放了生產力,讓大模型得以釋放更多的潛力。因此盡管已經是智能化下半場,各家的新技術架構層出不窮。
世界模型和VLA是其中最典型的技術代表。
4月22日,華為發布ADS4,最大變化是引入WE-WA架構:WE代表云端世界引擎(World Engine),WA代表了車端的世界行為模型(World Action Model)。
世界引擎的核心能力是用AI生成困難場景,包括極端天氣和罕見障礙物等,華為的世界引擎號稱能夠生成比真實世界密度高1000倍的困難場景,從而解決訓練端的數據瓶頸。而世界行為模型,是一個原生多模態的車端大模型,通過視覺、聽覺、觸覺的輸入,直接輸出控車軌跡和環境理解。
小鵬汽車也在車展前夕MPV車型X9香港的上市發布會上透露,小鵬已經搭建了10 EFlops的萬卡集群,正在訓練一個720B參數的超大模型,并稱之為「世界基座模型」;同時,基于世界基座模型蒸餾壓縮將得到小模型XVLA,小鵬將會以「世界模型 + XVLA +圖靈芯片」的方式布局下一代的智駕技術。
無論世界引擎也好,還是世界基座模型,都是來自云端算力和數據規模的突破。
而在車端,本年度典型的L2+智能輔助駕駛芯片將實現從單OrinX(254 Tops)到Thor U(700 Tops)數倍的性能提升,從而帶來由當前端到端架構向VLA等更復雜先進架構的演進。
二、下一代車端模型,為何走向了VLA?
2024年,從「數據驅動的感知 + 規則/小模型為主的決策規劃」,向兩段式端到端的變遷可以說是國內智能輔助駕駛圈內最重要的技術潮流。
然而這套范式運行到今天也呈現出非常明顯的瓶頸。尤其是對比2月底特斯拉FSD入華之后,特斯拉FSD的安全、擬人程度與國內系統對比有層次領先。不少業界大佬如小鵬汽車CEO何小鵬、地平線副總裁蘇箐、元戎啟行CEO周光都公開認可了特斯拉FSD技術的先進性。
周光認為,特斯拉FSD V12到V13的進展,就是用了(更先進的)大模型,只是特斯拉再不召開AI Day以及披露其中的技術細節。
元戎啟行和理想各自在GTC上公布其VLA模型的研發進展之后,在過去幾個月里VLA逐漸成為業界主流玩家們的技術共識,至少在預研的層面。
目前除上述兩家外,小米從Wayve招聘了一位主任科學家,專門負責帶領VLA團隊;國內Tier 1龍頭德賽西威的自研智駕團隊也在探索VLA;以及小鵬提到的車端模型XVLA,很顯然也是一種衍生的VLA模型。
VLA最早是由Google DeepMind在2023年7月提出的用于機器人控制的模型,其以大語言模型為基礎,模型在接收攝像頭的原始數據和語言指令后,可以直接輸出控制信號,完成各種復雜的操作。那為什么現在主流自動駕駛玩家不少都選擇VLA?
周光在車展上談到VLA的幾點好處,從模型開發的角度,語言對于模型的「對齊」操作是非常友好的,語言天然是在AI開發中的重要手段;語言同時也是用戶對系統建立信任和安全感非常好的手段。
VLA能帶來什么樣實際體驗的好處?元戎認為:
應用VLA之后,系統能夠習得特殊車道的駕駛方式;
擁有更長時序的理解能力,不犯基礎錯誤,更擅長處理復雜路況;
也能像人一樣的方式思考,有學習和自我優化的能力。
我們在車展期間也體驗了元戎最新的軟件版本,其針對大量密集的VRU有相當穩定的感知和博弈能力;此前在廣州密集的城區,其針對環島、銜接路等復雜道路結構的識別處理能力,也讓人印象深刻。
在車端模型的演進上,之前理想的「端到端+VLM」架構在雙OrinX平臺遇到的典型問題是,VLM的運行幀率較低,只有幾赫茲,難以達到自動駕駛所需的實時性要求;而Thor將帶來模型規模和運行幀率的提升。
理想在OrinX上部署的VLM模型參數規模大概在2B左右;而據業內Tier 1 聯想車計算在本屆車展上透露,目前他們已經在Thor上(只用了一部分算力)就實現了130B模型的部署。相信Thor的到來,將幫助智駕科技公司釋放VLA等復雜模型的潛力。
為了加速VLA的開發,元戎在本屆車展期間也與火山引擎簽署了深度合作,以獲得大規模云端算力的支持。
三、智駕走向L5,要先成為通才
從前融合到無圖再到端到端,作為一家擁有強AI背景的智駕科技公司,元戎有多次成功預言重要技術變革的歷史戰績;這一次,他們似乎再次引領了業界的技術潮流。
與此同時,元戎今年提出了RoadAGI戰略——尋求在汽車之外,打造具備通用移動能力的技術方案,比如用在移動機器人、無人配送小車等。
為什么在這個時點開始做RoadAGI?
周光認為,這一趨勢與大語言模型的發展類似,從大語言模型的經驗看,模型要先走過通才階段,才能實現達到專才階段,「直到 ChatGPT 出來后,大語言模型才變成了一個通才,但它最初是一個大專水平的通才。這之后,隨著在推理、數學等垂直能力上的強化,它變成了一個博士級的專才;再下一步是博士級通才。」
元戎在VLA的研發初具成果后,進一步開啟了RoadAGI戰略,計劃打造移動領域的通才模型。
周光打了一個比方,「如果這個通才模型能在自行車、摩托車等不同移動終端上都做到 1000 公里接管一次,這個系統再回去開車,就有可能做到 10 萬公里接管一次。」
實際上,今天業界主流的城區輔助駕駛系統接管指標還未能達到百公里級別;如果VLA和RoadAGI,能帶來這樣數量級的技術突破,其創造的價值將是巨大的。