來源:毫末智行 編輯:楊云鶴 發(fā)布時間:2023-06-14 17:02
2023年4月的第八屆 HAOMO AI DAY 上,基于 GPT 大模型所具有的生成式預(yù)訓(xùn)練、人類反饋強(qiáng)化學(xué)習(xí)(RLHF)等技術(shù)優(yōu)勢,毫末發(fā)布了行業(yè)首個自動駕駛生成式大模型 DriveGPT 雪湖·海若。
毫末 DriveGPT 底層模型同樣是采用 GPT 這種生成式預(yù)訓(xùn)練大模型技術(shù),首先會通過引入大規(guī)模駕駛數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,再通過使用獎勵模型(Reward Model)與RLHF(人類反饋強(qiáng)化學(xué)習(xí))技術(shù)對人駕數(shù)據(jù)進(jìn)行強(qiáng)化學(xué)習(xí),對自動駕駛認(rèn)知決策模型進(jìn)行持續(xù)優(yōu)化。
目前,毫末 DriveGPT 采用了 Decoder-only 模型架構(gòu),參數(shù)規(guī)模達(dá)到1200億,預(yù)訓(xùn)練階段引入4700多萬公里量產(chǎn)車駕駛數(shù)據(jù),RLHF 階段引入5萬段人工精選的困難場景接管 Clips。同時,毫末正在將感知能力融入到 DriveGPT 大模型訓(xùn)練當(dāng)中,形成一整套的端到端自動駕駛能力模型。DriveGPT 也將具備道路駕駛場景的理解和識別、道路駕駛場景的重建與生成,以及智能駕駛輔助、駕駛能力測評等能力。
在場景理解能力上, DriveGPT 可基于多模態(tài)理解能力,具備對話式文搜圖能力。在場景識別能力上,可實現(xiàn)對單幀圖片、環(huán)視 Bundle、4D Clips 自動化標(biāo)注?;诤聊?DriveGPT 所建立的 4D Clips 駕駛場景識別方案,可以使得單張圖片的標(biāo)注成本降到0.5元,是目前行業(yè)平均成本的1/10。在場景重建能力上,可實現(xiàn)對單趟或多趟視頻的純視覺 NeRF 三維重建。DriveGPT 在感知數(shù)據(jù)生成方面,可實現(xiàn)不同場景的感知數(shù)據(jù)生成和障礙物、交通元素編輯,同時在認(rèn)知數(shù)據(jù)生成上,可以生成各類接管場景的駕駛決策真值。
在云端駕駛決策測評上,DriveGPT 本身的駕駛水平非常高,可以在云端通過大模型輸出駕駛決策真值,來對比車端小模型的駕駛效果,實現(xiàn)大規(guī)模云端自動化測評,形成一種“Teacher-Student”模式。在多智能體仿真能力上,由于 DriveGPT 具備很強(qiáng)的自主化能力,相當(dāng)于一個獨立智能體,通過在駕駛仿真場景中布置多個智能體,可以模擬非常復(fù)雜的真實交通場景,針對復(fù)雜場景的多車交互與博弈,能給出更真實、更有效的測評結(jié)論。
在毫末看來,毫末 DriveGPT 大模型技術(shù)將使得自動駕駛技術(shù)產(chǎn)生質(zhì)的飛躍,成為實現(xiàn)真正無人駕駛的全新技術(shù)路線。顧維灝表示,DriveGPT 的訓(xùn)練成果距離最終的產(chǎn)品體驗還有差距,但是進(jìn)步飛快,自動駕駛大模型最終在終端的落地也會加速到來。
毫末 DriveGPT 雪湖·海若大模型的相關(guān)技術(shù)成果將逐步落地在搭載毫末 HPilot3.0 的新摩卡 DHT-PHEV、魏牌藍(lán)山 DHT-PHEV 以及末端物流自動配送車小魔駝3.0上。同時,毫末也正在與多個行業(yè)生態(tài)伙伴共同探索 DriveGPT 的四大應(yīng)用能力,包括智能駕駛、駕駛場景識別、駕駛行為驗證和困難場景脫困。DriveGPT 大模型也正在將云端的能力對外開放,包括大規(guī)模數(shù)據(jù)的自動化標(biāo)注,自動駕駛場景仿真測試等能力。
熱門
本周
本月