国产一区高清|日韩精品一区人妻|曰夲AV一区二区|美日韩一区二区三区|国产喷水在线观看|狼友网站成人大全|欧美日韩制服中文视频在线|久草加勒比手机在线|婷婷色综合无码专区|japanese 精品视频在线观看

理想高管回應(yīng)宇樹王興興對(duì) VLA 質(zhì)疑:空談架構(gòu)不如看療效

DoNews12月11日消息,在 8 月的 2025 年世界機(jī)器人大會(huì)上,宇樹科技 CEO 王興興表示當(dāng)下火熱的 VLA 模型(視覺-語言-動(dòng)作)是“相對(duì)比較傻瓜式的架構(gòu)”,并表示“保持比較懷疑的態(tài)度”。這一觀點(diǎn)隨后引發(fā)了多方討論。

理想自動(dòng)駕駛負(fù)責(zé)人郎咸朋 10 日發(fā)布長文,回應(yīng)了王興興的質(zhì)疑,表示他與王興興的觀點(diǎn)不同,他認(rèn)為模型的關(guān)鍵是要與整個(gè)具身智能系統(tǒng)適配,在此基礎(chǔ)上,數(shù)據(jù)是起決定意義的。

在 2025 年成都國際汽車展覽會(huì)上,郎咸朋就表示:“VLA 分別代表視覺、語言和動(dòng)作,與人類學(xué)習(xí)新知識(shí)、新能力的模式相同,具備學(xué)習(xí)藏在數(shù)據(jù)背后的邏輯推理能力,能夠像人一樣去思考、推理和解決問題,VLA 架構(gòu)也將帶來更強(qiáng)大的能力和體驗(yàn)提升?!?/p>

郎咸朋長文全文如下:

今年 8 月,我關(guān)注到宇樹科技創(chuàng)始人王興興提出對(duì) VLA 的一些擔(dān)憂。當(dāng)時(shí)沒有提出我的觀點(diǎn),一是理想 VLA 司機(jī)大模型還沒正式發(fā)布,空口無憑;二是我們對(duì)具身機(jī)器人行業(yè),還處于密切關(guān)注階段。我跟王興興觀點(diǎn)最不一樣的地方在于,他認(rèn)為模型架構(gòu)更重要,但我認(rèn)為模型的關(guān)鍵是要與整個(gè)具身智能系統(tǒng)適配,在此基礎(chǔ)上,數(shù)據(jù)是起決定意義的。

從今年 9 月 VLA 正式發(fā)布,到 12 月 6 日 OTA 8.1 的推送,經(jīng)過兩個(gè)月多的“實(shí)踐出真知”后,我有兩點(diǎn)心得:第一,VLA 就是自動(dòng)駕駛最好的模型方案,第二,具身智能最終拼的是整體的系統(tǒng)能力。

先說 VLA。

1)理想的 VLA 本質(zhì)上就是生成式模型。我們是在用 GPT 的方式做自動(dòng)駕駛,只不過生成的 Token 不是文本,而是軌跡和控制信號(hào)。從目前用戶使用的反饋看,在某些場景下理想的 VLA 已經(jīng)具備了對(duì)物理世界的認(rèn)知涌現(xiàn)。具體表現(xiàn)是用戶會(huì)越來越多的發(fā)現(xiàn)之前端到端沒有的擬人行為。

2)世界模型更適合做“考場”而不是“考生”。世界模型的高算力需求(訓(xùn)練和推理都是)決定了它更適合在云端做數(shù)據(jù)生成和極度逼真的仿真測(cè)試和強(qiáng)化訓(xùn)練,這也是理想目前正在做的,通過幾 E flops 的推理算力做仿真測(cè)試。這個(gè)算力水平,即使再強(qiáng)的車端芯片也無法做到。

3)空談架構(gòu)不如看療效。在自動(dòng)駕駛領(lǐng)域,脫離了海量真實(shí)數(shù)據(jù)談模型架構(gòu)都是空中樓閣,我們之所以堅(jiān)持 VLA,是因?yàn)槲覀儞碛袛?shù)百萬輛車構(gòu)建的數(shù)據(jù)閉環(huán),這讓我們能在當(dāng)前算力下,把駕駛水平做到接近人類。

再說具身智能。

要想做好自動(dòng)駕駛,必須先把自動(dòng)駕駛當(dāng)作完整的具身智能系統(tǒng)對(duì)待,每一部分在研發(fā)過程中要相互配合才能將價(jià)值發(fā)揮出來。人類駕駛車輛并不需要特別強(qiáng)的能力,普通人都能學(xué)會(huì)。但這里講的普通人,是各部分都能相互協(xié)調(diào)的正常人。

再強(qiáng)的大腦,如果配的是高度近視的眼睛和不靈活的身體,是開不了車的。具身智能系統(tǒng)包括感知(眼睛)、模型(大腦)、操作系統(tǒng)(神經(jīng))、芯片(心臟)、本體(身體)。需要做到全棧自研,不僅僅是軟件棧,而是整體軟硬全棧。理想的自動(dòng)駕駛團(tuán)隊(duì)與基座模型、芯片、底盤團(tuán)隊(duì)協(xié)同打造了整個(gè)的自動(dòng)駕駛系統(tǒng)。

基座和芯片大家比較了解不多說了,底盤方面給一個(gè)簡單例子。底盤的 VMM(車輛運(yùn)動(dòng)管理)模塊會(huì)對(duì)自動(dòng)駕駛的控制信號(hào)做精細(xì)化調(diào)校,在減速過程中區(qū)分卡鉗制動(dòng)和液壓制動(dòng)的使用策略,兼顧安全性和舒適體驗(yàn),實(shí)現(xiàn)“身體”和“大腦”的協(xié)同價(jià)值。

模型的關(guān)鍵是要與整個(gè)具身智能系統(tǒng)適配,在此基礎(chǔ)上,數(shù)據(jù)是起決定意義的。在機(jī)器人領(lǐng)域獲取數(shù)據(jù)相對(duì)困難,但在自動(dòng)駕駛領(lǐng)域,特別是建立起數(shù)據(jù)閉環(huán)能力的車企來說并不是大問題。理想不僅可以從過去幾年積累的 10 幾億公里的存量數(shù)據(jù)里進(jìn)行挖掘和篩選,更可以通過 150 萬車主的日常使用源源不斷的獲取新的數(shù)據(jù)。這與用數(shù)據(jù)采集車做數(shù)據(jù)是完全不同的,其質(zhì)量和分布相比真實(shí)情況是有很大差距的。

另外,在篩選數(shù)據(jù)過程中,我們也發(fā)現(xiàn)很多有趣現(xiàn)象,比如有接近 40% 的人類駕駛數(shù)據(jù)都是偏一側(cè)開車的,也幾乎不會(huì)嚴(yán)格卡著限速值開車。我們認(rèn)為其實(shí)這才是符合人類的駕駛行為,所以并沒有刻意刪除這些數(shù)據(jù)樣本。大家在使用 AD Max 時(shí)如果發(fā)現(xiàn)也有這些行為,那是模型跟各位學(xué)習(xí)到的習(xí)慣。

想哥在前兩天明確提到,未來五到十年,具身機(jī)器人核心將有兩種形態(tài):汽車類的具身機(jī)器人、人形類的具身機(jī)器人。理想的 VLA 不僅服務(wù)于現(xiàn)在的理想各類汽車產(chǎn)品形態(tài),也將服務(wù)于未來的汽車類具身機(jī)器人。

標(biāo)簽: VLA 理想 郎咸朋 宇樹科技
理想高管回應(yīng)宇樹王興興對(duì) VLA 質(zhì)疑:空談架構(gòu)不如看療效
掃描二維碼查看原文
分享自DoNews
Copyright ? DoNews 2000-2025 All Rights Reserved
蜀ICP備2024059877號(hào)-1