李想:只有成為生產(chǎn)工具,才是人工智能真正的爆發(fā)時刻
汽車數(shù)落 | 05-10
13993
或許是對話的效果確實不錯,又或許關(guān)于人工智能的話題意猶未盡,在去年末“AI Talk”第一季僅僅4個多月后,理想于5月7日啟動了“AI Talk”第二季,李想再次向公眾敞開心扉,分享了他對人工智能的最新思考,而這次的主角就是理想VLA司機大模型。
“VLA”,是“Vision-Language-Action”首字母的縮寫。VLA模型即“視覺語言動作模型”,就是結(jié)合視覺、語言和動作三個模塊,能夠更好地理解復(fù)雜的交通場景,并做出擬人化的駕駛決策。VLA模型是人工智能技術(shù)自動駕駛領(lǐng)域的一種全新的技術(shù)范式。
值得特別注意的是,此次理想將其VLA大模型加了個定語“司機”。對此,李想認為,AI分為信息工具、輔助工具和生產(chǎn)工具三個層級,而“判斷Agent(智能體)是否真正智能,關(guān)鍵在于它是否成為生產(chǎn)工具”,“只有當人工智能變成生產(chǎn)工具,才是其真正爆發(fā)的時刻。就像人類會雇傭司機,人工智能技術(shù)最終也會承擔類似職責,成為真正的生產(chǎn)工具。”
在李想看來,目前的L2、L2+駕駛輔助仍屬于輔助工具階段,而VLA則能夠讓AI真正成為司機,成為交通領(lǐng)域的專業(yè)生產(chǎn)工具。因此,未來的VLA就是“一個像人類司機一樣工作的司機大模型”。
當然,VLA的實現(xiàn)不是突變的過程,是進化的過程。譬如此前依賴規(guī)則算法和高精地圖的輔助駕駛類似“昆蟲動物智能”,當前應(yīng)用的端到端+VLM輔助駕駛類似“哺乳動物智能”,在處理復(fù)雜交通問題時均存在一定局限。而VLA司機大模型才真正進入“人類智能”階段。屆時,VLA司機大模型將以“司機Agent(智能體)”的產(chǎn)品形態(tài)呈現(xiàn),用戶可通過自然語言與司機Agent溝通,跟人類司機怎么說,就跟司機Agent怎么說。
李想認為,除了提升專業(yè)能力,VLA司機大模型還需解決安全性和模型黑盒的問題。“判斷司機Agent是否是個好司機,有三個關(guān)鍵標準:專業(yè)能力、職業(yè)能力和構(gòu)建信任的能力。”
李想特別強調(diào)自研,譬如在輔助駕駛方面,英偉達Orin-X芯片無法直接運行語言模型,而理想汽車通過自研底層推理引擎,使芯片可通過INT4量化的方式運行VLM,同時憑借芯片、控制器設(shè)計和自研汽車操作系統(tǒng)等綜合能力,理想汽車實現(xiàn)了讓雙Orin-X芯片和Thor-U芯片運行同等規(guī)模的VLA司機大模型。“人工智能時代,扎實的基本功比走捷徑重要。”
李想非常感謝因為DeepSeek的開源,讓理想汽車VLA司機大模型的語言能力研發(fā)提速顯著,因此,李想決定將其自研的汽車操作系統(tǒng)“理想星環(huán)OS”開源,以回饋社會。
而面對AI的發(fā)展,李想認為,在AI面前“所有的人性都應(yīng)被保留,無論好壞”,“因為一切人性都是文化、生命、性格、能力的特質(zhì),也是人類真正的生命力所在。”
第三只眼
從去年的破50萬輛銷量,到今年4月初L系列的破百萬輛交付,理想汽車不斷創(chuàng)造中國高端汽車新勢力成長的傳奇,不僅在于其對消費者的深刻洞察,更在于其始終堅持技術(shù)創(chuàng)新。如今,理想汽車已儼然成為令人尊敬的企業(yè)。雖然當前輔助駕駛受到的爭議頗多,但人工智能的浪潮奔涌向前終將爆發(fā),而L3及L4自動駕駛才將很快迎來破繭的時刻,讓我們這一天的到來。