DoNews汽車7月5日消息,6月30日,毫末智行聯(lián)合清華大學智能產業(yè)研究院(AIR)舉辦了2023年第二場自動駕駛精品公開課,深入分享了大數(shù)據(jù)、大算力、大模型驅動下的自動駕駛發(fā)展趨勢和技術原理。
本期課程在此前第一期聚焦自動駕駛AI技術原理的基礎上,更進一步介紹了大模型之于自動駕駛背后的技術邏輯?,F(xiàn)場,毫末智行數(shù)據(jù)智能科學家賀翔以《大數(shù)據(jù)、大算力、大模型驅動下的自動駕駛》為主題,從AI大模型的內核講起,結合毫末發(fā)布的業(yè)內首個自動駕駛生成式大模型DriveGPT雪湖·海若,通過毫末在自動駕駛行業(yè)里用大模型思路實踐經(jīng)驗,為大家全面分享了大模型技術落地自動駕駛的新范式。
回顧自動駕駛行業(yè)過去這些年的發(fā)展,賀翔將技術演進分為了3個階段,即以硬件驅動為主的1.0時代、以軟件驅動為主的2.0時代,以及正在進入的、以數(shù)據(jù)驅動為主要特征的自動駕駛3.0時代。
毫末智行從創(chuàng)立之初,就定下以數(shù)據(jù)驅動自動駕駛技術升級的公司技術戰(zhàn)略,以領先的人工智能技術和智能駕駛規(guī)模量產作為自身優(yōu)勢,在2021年底,率先發(fā)布國內首個全棧自研的自動駕駛數(shù)據(jù)智能體系MANA(雪湖),又在一年后的2022年底,建成國內自動駕駛行業(yè)最大的智算中心MANA OASIS(雪湖·綠洲),每秒浮點運算達到67億億次。
賀翔認為,自動駕駛當前的技術范式與十幾年前的自然語言處理技術非常相近,即小數(shù)據(jù)、小模型,通過采集各種各樣的交通數(shù)據(jù)、進行人工標注、再用這些數(shù)據(jù)訓練出小模型,然后再把模型部署到車上,結合業(yè)務規(guī)則,去控制車。
這種模式的弊端十分明顯——一旦量產上車,當數(shù)十萬輛車在全國各地跑起來,就會出現(xiàn)各種各樣的路況、場景,如果還按照之前的思路去做人工標注,一方面,需要消耗大量的人力成本和時間,另一方面,則永遠不可能標注完所有場景,就像運載著各種貨物的掛車這類交叉組合的特殊場景需要做出不同種類的標注,而這種組合幾乎是無窮的。
過去幾年,自然語言處理領域,大模型技術取得了技術突破,尤其是GPT這樣的大模型出現(xiàn)以后,大模型具備很強的泛化能力,通過一個大模型就能解決各類問題。
基于這樣的行業(yè)困境、借鑒自然語言處理領域的經(jīng)驗,毫末相信大數(shù)據(jù)、大模型會成為自動駕駛領域一種新的解題思路。在技術路線上,毫末早在2021年初就開始探索將Transformer大模型技術落地應用到自動駕駛產品當中,同時也成為國內首家研發(fā)落地BEV感知技術的自動駕駛公司,并在2022年4月,率先在國內發(fā)布以“重感知”方式實現(xiàn)的城市NOH導航輔助駕駛產品。
2023年4月,基于GPT大模型所具有的生成式、預訓練、人類反饋強化學習等技術優(yōu)勢,毫末將視覺自監(jiān)督大模型、3D重建大模型、多模態(tài)互監(jiān)督大模型、動態(tài)環(huán)境大模型、人駕自監(jiān)督認知大模型等五大模型進行統(tǒng)一升級,發(fā)布了行業(yè)首個自動駕駛生成式大模型DriveGPT雪湖·海若。
DriveGPT的底層模型與ChatGPT一樣,都采用了生成式預訓練模型架構,使用了大規(guī)模無監(jiān)督的數(shù)據(jù)進行初始模型的生成,也都采用了Prompt微調方式和RLHF人類反饋強化學習的方式進行模型效果的優(yōu)化;二者的不同之處在于,ChatGPT輸入輸出的自然語言的文本,而DriveGPT輸入輸出分別是歷史場景序列和生成的未來場景序列,ChatGPT主要用于自然語言處理領域,而DriveGPT主要用于自動駕駛領域。
據(jù)賀翔介紹,DriveGPT大模型現(xiàn)在分成兩個階段,一個階段是更通用、更基礎的能力,即空間計算能力。另一個階段是做駕駛決策,即要知道怎么開車。也就是在空間計算能力之上,再去疊加認知決策的能力。
賀翔表示,DriveGPT目前仍然以云端訓練和推理的方式為主,但它已可以通過多種方式來賦能車端智駕能力。首先,可以通過多模態(tài)大模型的場景理解能力,進行高效數(shù)據(jù)篩選,為車端小模型訓練提供所需要的海量極端、困難場景數(shù)據(jù)。
同時,DriveGPT也具備很強的駕駛場景識別能力,可以使用這個能力來進行自動標注。基于毫末DriveGPT所建立的4D Clips駕駛場景自動標注方案,可以使得單張圖片的標注成本降到0.5元,相較目前行業(yè)平均成本的1/10。毫末目前正在會將圖像幀及4D Clips自動駕駛場景識別服務向行業(yè)開放使用,這將大幅降低行業(yè)使用數(shù)據(jù)的成本,提高數(shù)據(jù)質量。
在駕駛場景通用感知能力上,DriveGPT對視覺感知任務做了全面升級,以恢復真實世界的三維結構和紋理分布為目標,通過構建統(tǒng)一的空間計算Backbone實現(xiàn)通用視覺感知能力,在一個大模型中同時完成圖片紋理、三維結構深度信息、實體語義信息、實體跟蹤的學習,試圖與人腦對物理世界的感知一樣實現(xiàn)通用的視覺感知能力。
目前,毫末視覺感知訓練數(shù)據(jù)集達到400萬Clips,感知性能提升20%。DriveGPT可以支持單趟或多趟的純視覺NeRF三維重建以及數(shù)據(jù)生成,從而可以構造大量自動駕駛的corner cases,為行業(yè)提供更低成本、更大規(guī)模的自動駕駛能力測試的仿真環(huán)境,幫助行業(yè)伙伴快速提升自動駕駛技術能力。
除了感知層面,賀翔還分享了在DriveGPT認知決策層面的應用,當前的認知決策是把BEV感知結果作為輸入進行駕駛決策訓練。但是BEV感知結果會丟失很多信息,限制了駕駛決策的上限。
DriveGPT則直接將空間計算Backbone對接駕駛決策,采用更豐富、更全面的感知信息來訓練駕駛決策模型,結合海量的真實駕駛數(shù)據(jù)訓練,最終實現(xiàn)端到端自動駕駛甚至達到無人駕駛。
賀翔表示,當前,毫末DriveGPT實現(xiàn)了模型架構與參數(shù)規(guī)模的升級,參數(shù)規(guī)模達到1200億,預訓練階段引入5500多萬公里量產車駕駛數(shù)據(jù),RLHF階段引入5萬段人工精選的困難場景接管 Clips。同時,毫末正在將感知能力融入到DriveGPT大模型訓練當中,形成一整套的端到端的自動駕駛能力模型。DriveGPT也將具備自動駕駛的場景理解、場景識別、場景重建、場景生成能力,以及駕駛能力測評等能力。
DriveGPT的出現(xiàn),從底層技術上顛覆了以往自動駕駛認知決策過程采用人工規(guī)則、小模型的實現(xiàn)方式,首次探索以數(shù)據(jù)驅動的大模型方式實現(xiàn)自動駕駛的數(shù)據(jù)篩選、自動標注、駕駛決策,最終為實現(xiàn)端到端自動駕駛提供可能。
在現(xiàn)場問答環(huán)節(jié),當談到自動駕駛的“ChatGPT時刻”會在什么時候到來時,賀翔也給出了自己的看法。在他看來,ChatGPT之所以給了大家如此大的震撼,在于它天然是多面手。
但是,一方面,在自動駕駛領域里面,不同于ChatGPT只處理文本信號,自動駕駛還要處理圖片、點云、交通法規(guī)、地圖、駕駛行為等一系列信息,自動駕駛要處理的數(shù)據(jù)模態(tài)更復雜;另一方面,自動駕駛對模型的輸出精度要求更高、可解釋性要求也更強。面對這種特別復雜的模態(tài)、特別高的輸出要求,實現(xiàn)自動駕駛大模型道阻且長,但行則將至。
毫末智行聯(lián)合清華大學智能產業(yè)研究院(AIR)舉辦的自動駕駛精品公開課共分4期,本期課程是第二期。在3月舉辦的第一期課程里,來自清華AIR和毫末智行的講師已經(jīng)為近百名業(yè)內媒體人介紹了單車智能自動駕駛、車路協(xié)同自動駕駛和高等級智能道路建設等自動駕駛技術發(fā)展,并向大家講解了自動駕駛AI技術基礎原理,以及當前大模型在自動駕駛的應用趨勢。