近日,理想汽車宣布基于端到端及VLM視覺語言模型和世界模型的全新一代理想智能駕駛正式開啟萬人體驗團招募,新一代產品將進入有監督(L3級別及以下)自動駕駛的新階段,理想汽車自動駕駛產品面向車主免費。
特斯拉是最早在智能駕駛上應用端到端大模型的企業。今年7月份,特斯拉公司CEO埃隆·馬斯克表示,將在歐洲和中國申請監管批準以實施監督下的FSD,預計在今年年底前獲得批準。而今年以來,理想、小鵬等多家車企力推端到端,這一技術方案較為火熱。
信達證券發布的一份研報顯示,“端到端”是指一端輸入圖像等環境數據信息,中間經歷類似“黑箱”的多層神經網絡模型,另一端直接輸出轉向、制動、加速等駕駛指令。與傳統規則驅動的分模塊架構相比,端到端的實現將帶來一系列優勢:完全基于數據驅動進行全局任務優化,具備更好、更快的糾錯能力;能進一步減少模塊間信息的有損傳遞、延遲和冗余,避免誤差累積,提升計算效率;泛化能力更強,由Rule-based算法轉向Learning-based,具備零樣本學習能力,面對未知場景具備更強決策能力。
和傳統的基于規則控制的智能駕駛輔助系統不同,端到端的自動駕駛解決方案意味著從感知到規控的全過程都通過先進的算法和深度學習技術進行處理。端到端技術在自動駕駛上的應用,把原本感知、預測、規劃等多個模型組合的架構,變成了“感知決策一體化”的單模型架構。通俗來說,過去自動駕駛路線就好比多個人開一輛車,而端到端技術是單人開車,更加接近真實的人類駕駛。
“相比于以前模塊化的模型,端到端更本質的方法是減少了各種信息的冗余。端到端的模型需要規則,有分模塊的數據和分模塊的策略任務。”理想汽車智能駕駛高級算法專家詹錕對記者表示,理想汽車的端到端本身想解決中間信息的損失,如果中間加了人為的信息消化過程,可能效率不是那么高或能力上限受到約束,所以一體化的端到端是更本質的端到端,其訓練難度比分模塊架構要大,包括數據配比和訓練方法等方面都需要深入探索和挖掘。
理想汽車的端到端模型用于處理常規的駕駛行為,從傳感器輸入到行駛軌跡輸出只經過一個模型,信息傳遞、推理計算和模型迭代更高效,駕駛行為更擬人;VLM視覺語言模型具備強大的邏輯思考能力,可以理解復雜路況、導航地圖和交通規則,應對高難度的未知場景。同時,自動駕駛系統將在基于世界模型構建的虛擬環境中進行能力學習和測試。
“過去的智駕方案,不管是輕圖還是無圖,底層技術架構都是有人為設計成分的,如果想將一年四季各種情況都跑一遍,沒有一兩年時間是不可能實現。所以我們迭代了端到端+VLM技術架構,本質上是人工智能方案。”理想汽車智能駕駛研發副總裁郎咸朋對記者表示,自動駕駛研發的核心競爭在于是否有更多更好的數據和與之配套的算力去訓練模型。而算力和數據的獲取,需要看花多少錢、投入多少資源去做,同時需要投資算力。他透露,理想汽車當前訓練算力達到5.39EFLOPS,預計到2024年底將超過8EFLOPS。目前每年在訓練算力的投入超過10億元,今年要消耗20億元。
國信證券研報顯示,當前汽車智能化已經具備端到端大模型的技術底層突破,國內市場遠期具有近3000億元的市場空間,智能駕駛奇點時刻漸近。不過,智駕領域需要大量的研發投入。不久前,極越汽車CEO夏一平在極越端到端AI智駕發布會上表示,200億元曾被公認是造車的資金門檻,現在企業沒有500億元也做不好智駕。
“未來智能駕駛進入到L4階段,每年數據和算力都是呈指數級的增長,這意味著每年至少需要10億美金,5年之后需要持續迭代。在這樣的量級下,一家企業的盈利和利潤不能支撐投入的話是很困難的。所以,現在不需要關注投入多少億做自動駕駛,而是從