2025年5月7日,“理想AI Talk第二季——理想VLA司機大模型,從動物進化到人類”活動舉辦。理想汽車董事長兼CEO李想在活動中分享了對人工智能的前沿思考,深入解讀了VLA司機大模型的關鍵作用、創新訓練方法、面臨的挑戰,以及對創業和個人成長的見解。
從信息工具到生產工具,從動物智能到人類智能
李想將AI工具細致地劃分為信息工具、輔助工具和生產工具三個層級。在當下,大多數人僅僅把AI當作獲取信息的工具,然而,這種應用方式往往伴隨著大量無效信息、無效結果和無效結論,其價值主要局限于參考層面。當AI進階為輔助工具時,它能夠顯著提升效率,例如當前的輔助駕駛技術,雖然在一定程度上減輕了駕駛員的負擔,但仍然離不開人類的實時參與和監督。
李想指出,只有當AI發展成為生產工具,能夠獨立承擔專業任務,才是其真正爆發的時刻。他形象地比喻道:“就像人類會雇傭司機,人工智能技術最終也會承擔類似職責,成為真正的生產工具。” 這一觀點清晰地描繪了AI未來的發展方向,即從單純的輔助角色轉變為能夠獨立完成復雜任務的關鍵生產力。
VLA(Vision-Language-Action Model,視覺語言行動模型)的誕生標志著AI在自動駕駛領域的重大突破,它使得AI能夠真正成為司機,成為交通領域的專業生產工具。李想強調,VLA的實現并非一蹴而就的突變,而是一個循序漸進的進化過程,這一過程經歷了三個階段,與理想汽車輔助駕駛的發展歷程緊密相連,生動地詮釋了技術的迭代與升級。
第一階段,自2021年起,理想汽車自主研發的輔助駕駛系統依賴規則算法和高精地圖,這一階段的智能水平類似于“昆蟲動物智能”。它如同昆蟲遵循本能和既定規則行動一樣,雖然能夠在一定程度上完成任務,但對環境的理解和適應能力相對有限。規則算法如同昆蟲簡單的神經系統,只能處理相對簡單和固定的情況,面對復雜多變的交通環境,往往顯得力不從心。
第二階段,從2023年開始研究,并于2024年正式推送的端到端 +VLM(Vision Language Model,視覺語言模型)輔助駕駛,已經接近“哺乳動物智能”。端到端模型通過學習人類的駕駛行為,能夠在大多數常見的交通場景中應對自如,就像哺乳動物通過觀察和模仿來學習生存技能一樣。但在處理復雜問題時,它仍然存在明顯的局限,例如在面對從未遇到過的特殊路況或突發情況時,可能會出現決策困難或錯誤。盡管可以借助VLM視覺語言模型提供一定的輔助,但由于VLM使用的是開源模型,在交通領域的專業能力受到很大限制,同時端到端模型在與人類溝通方面也存在障礙,無法準確理解和執行人類的指令。
為了突破這些瓶頸,提升用戶的智能體驗,理想汽車自2024年起全力開展VLA研究,并在多項頂級學術會議上發表論文,為VLA的發展奠定了堅實的理論基礎。到了第三階段,VLA開啟了 “人類智能” 的嶄新時代。它能夠通過3D和2D視覺的完美組合,全面、完整地感知物理世界,這與VLM僅能解析2D圖像形成了鮮明對比。VLA還擁有一套完整的腦系統,具備強大的語言能力和CoT(Chain of Thought,思維鏈)推理能力,不僅能夠精準地感知周圍環境,還能深入理解交通規則和人類意圖,并真正地執行各種駕駛行動,其運作方式與人類高度相似,展現出了高度的智能和適應性。
VLA的訓練過程:模擬人類學習,對齊人類價值觀
VLA的訓練過程如同人類學習駕駛技能一樣,分為預訓練、后訓練和強化訓練三個緊密相連的環節,每個環節都模擬了人類學習駕駛的不同階段,確保模型能夠為用戶帶來卓越的舒適性和安全性體驗。
預訓練環節,就像是人類學習物理世界和交通領域的基礎知識和常識。在這個階段,模型通過海量的高清2D和3D Vision(視覺)數據、豐富的交通相關的Language(語言)語料,以及與物理世界相關的VL(Vision Language,視覺和語言)聯合數據進行深度訓練,從而構建出云端的VL基座模型。隨后,通過蒸餾技術將其轉化為在車端高效運行的端側模型,為后續的學習和應用奠定堅實基礎。
后訓練環節,則類似于人類進入駕校進行專業的駕駛學習。隨著Action(動作)數據的融入,即對周圍環境和自車駕駛行為的精確編碼,VL基座模型逐漸演變為VLA司機大模型。得益于短鏈條的CoT,以及Diffusion擴散模型對他車軌跡和環境的精準預測,VLA具備了出色的實時性特點,能夠在復雜多變的交通環境中靈活應對,實現高效的博弈能力,就像一個熟練的駕駛員能夠根據路況做出及時、準確的判斷和決策。
強化訓練環節,類似于人類在社會中實際開車練習,不斷積累經驗、提升技能。其目標是讓VLA司機大模型更加安全、舒適,與人類價值觀高度對齊,甚至在某些方面超越人類駕駛水平。強化訓練包含兩部分:一是通過RLHF(Reinforcement Learning from Human Feedback,基于人類反饋的強化學習)完成安全對齊,使模型嚴格遵守交通規則,充分貼合中國用戶的獨特駕駛習慣;二是將純強化學習模型放入世界模型中進行訓練,進一步提升舒適性,有效避免碰撞事故,始終遵守交通規則。經過這一系列嚴謹、科學的訓練過程后,VLA司機大模型即可部署至車端,為用戶提供安全、智能的駕駛服務。
VLA司機大模型以“司機Agent(智能體)”的創新產品形態呈現,用戶可以通過自然語言與司機Agent輕松溝通,就像與人類司機交流一樣便捷自然。簡單通用的短指令可由端側的VLA直接處理,快速響應;復雜指令則先由云端的VL基座模型進行深入解析,再交由VLA進行精準處理,確保用戶的每一個指令都能得到準確、高效的執行。
超級對齊與世界模型,解決AI的安全與黑盒問題
在追求AI技術進步的同時,理想汽車高度重視VLA司機大模型的安全性和模型黑盒問題。隨著模型能力的不斷提升,職業性約束變得愈發重要,它如同為模型劃定了一條清晰的底線,確保其行為始終符合安全和道德標準。
為了保障VLA司機大模型能夠實現職業司機般的安全和舒適,避免出現學習加塞等違規行為,理想汽車在強化訓練環節投入了大量的資源。2024年底,理想汽車組建了超過100人的超級對齊團隊,這個團隊就像是為司機Agent注入了專業的職業素養,從多個維度對模型進行約束和優化。在法規常識方面,確保模型嚴格避免實線變道、闖紅燈等危險錯誤行為;在行為一致性方面,保證模型在安全、舒適和與人的駕駛習慣一致性上達到高標準,無論是加減速的平穩性,還是轉彎、變道的合理性,都能讓用戶感受到如同人類司機駕駛般的安心和舒適;在技術安全一致性方面,全力避免車輛被遠程惡意入侵操作,同時在惡劣天氣等特殊情況下,能夠及時、準確地向用戶反饋傳感器的狀態,確保駕駛安全。
為了解決模型的黑盒問題,理想汽車創新性地結合重建和生成兩種路徑,打造了真實、符合物理世界規律的世界模型。這個世界模型涵蓋了所有交通參與者和要素,就像一個虛擬的真實交通世界?;谑澜缒P蛷姶蟮姆抡婺芰?,VLA可以在這個虛擬環境中低成本、準確地驗證現實問題,大大提升了解決問題的效率,有效應對了模型黑盒帶來的諸多挑戰。通過在世界模型中進行大量的模擬測試和優化,VLA能夠不斷改進自身的決策和行為,確保在實際駕駛中的安全性和可靠性。
判斷司機Agent是否是一個優秀的司機,有三個關鍵標準:專業能力、職業能力和構建信任的能力。VLA司機大模型通過先進的訓練技術和算法,顯著提升了專業能力;超級對齊團隊的努力則增強了其職業能力;VLA通過對自然語言的精準理解和具備的記憶能力,有效提升了構建信任的能力,讓用戶能夠放心地將駕駛任務交給它。
在人工智能時代,理想汽車實現技術快速躍遷的背后,是對從研究、研發到能力表達,再到將能力轉化為業務價值這一完整過程的扎實積累。李想強調,研究是其中的關鍵環節,只有在研究上取得突破,研發的效率才能大幅提升,并且注重將研究成果轉化為實際的業務價值,最終實現技術的落地應用和商業成功。
理想汽車始終堅持自主研發的道路,通過持續的技術創新為用戶創造更大的價值。在輔助駕駛領域,面對英偉達Orin X芯片無法直接運行語言模型的難題,理想汽車憑借自有編譯團隊,自主研發底層推理引擎,成功使芯片可通過INT4(4比特整型)量化的方式運行VLM,展現了強大的技術實力和創新能力。同時,憑借在芯片、控制器設計和自研汽車操作系統等方面的綜合優勢,理想汽車實現了讓雙Orin-X芯片和Thor-U芯片運行同等規模的VLA司機大模型,為用戶提供更加穩定、高效的智能駕駛體驗。
李想表示,大型企業的基本功和能力是其立足市場的根本,是無法被輕易逾越的。得益于DeepSeek的開源,理想汽車在VLA司機大模型的語言能力研發上取得了顯著的提速,節省了近9個月的時間和數億元成本。盡管如此,理想汽車并未滿足于此,而是選擇加大投入,在基座模型上投入超預期3倍的訓練卡,專注打造適配多場景的自研模型。李想堅定地說:“我們可以站在巨人的肩膀上,但它只是其中的一部分。” 在受益于開源技術的同時,理想汽車也積極回饋社會,將自研的汽車操作系統——理想星環OS開源,為行業的發展貢獻自己的力量。
創業與成長,在痛苦中保持正能量
今年7月,理想汽車將迎來成立十周年的重要時刻。回顧這十年的創業歷程,李想感慨萬千,他表示創業路上充滿了艱辛與挑戰,苦多于甜,但他始終選擇保留那些有價值的美好片段,用這些溫暖的回憶激勵自己保持積極向上的正能量。他以樂觀豁達的心態看待創業中的困難與挫折,將企業遭遇的打擊視為必須面對的挑戰,正是這些挑戰促使理想汽車不斷成長和進步,賦予了企業更多的能力。也正是憑借這份積極樂觀的創業心態,理想汽車才能在激烈的市場競爭中快速崛起,成長為千億營收規模、百萬交付量的新勢力企業。
談及如何成為更有能量的人,李想認為,關鍵在于關注自我,深入了解自己的優點和不足,并以成長的心態替代單純的改變。成長意味著不斷增強自身的能力,在面對各種挑戰時能夠從容應對。李想還特別強調親密關系的重要性,他認為關注他人的成長同樣能為自己帶來強大的能量,家人和同事能夠與他形成互補,在工作和生活中相互支撐,共同前行。“我需要家人和同事甚至超過了他們需要我,首先是我需要他們,然后才是他們需要我,我們在一起能夠形成非常強的腦力和心力。” 李想深情地說。
回顧幾次創業經歷,李想感慨地說,從高中創辦個人網站至今,自己的思維方式始終保持著一致性:遇到問題積極解決問題,勇于挑戰他人不愿解決的難題,致力于解決用戶的痛點,并不斷向他人學習。不同的是,如今面臨的問題更加復雜多樣,服務的用戶群體日益龐大,公司規模和組織也更加龐大,需要承擔更多的責任和使命。“幾次創業一路走來,最難時有人相助,遇坑也能迅速爬出,一幫人齊心協力變得更好,這是種幸運,也沒什么可后悔的。” 李想充滿感恩地說。
面對AI的迅猛發展,李想認為,在AI面前所有的人性都應被尊重和保留,無論好壞。因為一切人性都是文化、生命、性格和能力的獨特特質,也是人類真正的生命力所在。AI技術的發展應該是為了更好地服務人類,而不是取代人類的獨特價值。
從使用增程電動和5C超充技術解決電池成本高、充電難、充電慢的行業難題,到自研汽車操作系統攻克傳統汽車操作系統性能差、開發緩慢、芯片匹配周期長等挑戰,理想汽車始終以技術創新為核心驅動力,勇敢地解決行業無法解決的問題。在自研VLA的征程中,理想汽車更是踏入了人工智能的無人區,展現出了無畏的勇氣和堅定的決心。當前,輔助駕駛正處于新的十字路口,理想汽車將繼續挑戰成長的極限,持續為行業和用戶創造更大的價值,引領智能汽車行業邁向更加美好的未來。
理想汽車的VLA司機大模型不僅是技術上的重大突破,更是對未來交通和人工智能發展的一次深刻探索。隨著這一模型的不斷完善和應用,我們有理由期待它將為人們的出行帶來更加安全、智能、便捷的體驗,推動整個行業邁向新的高度。
---------------------
不保證以上內容的準確性和真實性。市場有風險,投資交易需謹慎。所涉標的不做任何推薦,據此投資交易,風險自擔。
科記匯,資深財經媒體人創辦,財經報道先鋒,年閱讀觀看量數億。關注研究重大財經動態、企業家精神、商業文明發展歷程,報道大型企業、上市公司、創業公司關鍵發展節點。內容同步數十家網絡平臺。歡迎提供報道線索和采訪機會