影音先锋av网址,日本AAAAAA片中文字幕,亚洲无码永久KKKK777

DoNews > 商業(yè) > 理想高管回應(yīng)宇樹王興興對(duì) VLA 質(zhì)疑：空談架構(gòu)不如看療效

理想高管回應(yīng)宇樹王興興對(duì) VLA 質(zhì)疑：空談架構(gòu)不如看療效

楊亮 2025-12-11 08:13:35

507903

分享到

DoNews12月11日消息，在 8 月的 2025 年世界機(jī)器人大會(huì)上，宇樹科技 CEO 王興興表示當(dāng)下火熱的 VLA 模型（視覺-語言-動(dòng)作）是“相對(duì)比較傻瓜式的架構(gòu)”，并表示“保持比較懷疑的態(tài)度”。這一觀點(diǎn)隨后引發(fā)了多方討論。

理想自動(dòng)駕駛負(fù)責(zé)人郎咸朋 10 日發(fā)布長文，回應(yīng)了王興興的質(zhì)疑，表示他與王興興的觀點(diǎn)不同，他認(rèn)為模型的關(guān)鍵是要與整個(gè)具身智能系統(tǒng)適配，在此基礎(chǔ)上，數(shù)據(jù)是起決定意義的。

在 2025 年成都國際汽車展覽會(huì)上，郎咸朋就表示：“VLA 分別代表視覺、語言和動(dòng)作，與人類學(xué)習(xí)新知識(shí)、新能力的模式相同，具備學(xué)習(xí)藏在數(shù)據(jù)背后的邏輯推理能力，能夠像人一樣去思考、推理和解決問題，VLA 架構(gòu)也將帶來更強(qiáng)大的能力和體驗(yàn)提升?！?/p>

郎咸朋長文全文如下：

今年 8 月，我關(guān)注到宇樹科技創(chuàng)始人王興興提出對(duì) VLA 的一些擔(dān)憂。當(dāng)時(shí)沒有提出我的觀點(diǎn)，一是理想 VLA 司機(jī)大模型還沒正式發(fā)布，空口無憑；二是我們對(duì)具身機(jī)器人行業(yè)，還處于密切關(guān)注階段。我跟王興興觀點(diǎn)最不一樣的地方在于，他認(rèn)為模型架構(gòu)更重要，但我認(rèn)為模型的關(guān)鍵是要與整個(gè)具身智能系統(tǒng)適配，在此基礎(chǔ)上，數(shù)據(jù)是起決定意義的。

從今年 9 月 VLA 正式發(fā)布，到 12 月 6 日 OTA 8.1 的推送，經(jīng)過兩個(gè)月多的“實(shí)踐出真知”后，我有兩點(diǎn)心得：第一，VLA 就是自動(dòng)駕駛最好的模型方案，第二，具身智能最終拼的是整體的系統(tǒng)能力。

先說 VLA。

1）理想的 VLA 本質(zhì)上就是生成式模型。我們是在用 GPT 的方式做自動(dòng)駕駛，只不過生成的 Token 不是文本，而是軌跡和控制信號(hào)。從目前用戶使用的反饋看，在某些場景下理想的 VLA 已經(jīng)具備了對(duì)物理世界的認(rèn)知涌現(xiàn)。具體表現(xiàn)是用戶會(huì)越來越多的發(fā)現(xiàn)之前端到端沒有的擬人行為。

2）世界模型更適合做“考場”而不是“考生”。世界模型的高算力需求（訓(xùn)練和推理都是）決定了它更適合在云端做數(shù)據(jù)生成和極度逼真的仿真測(cè)試和強(qiáng)化訓(xùn)練，這也是理想目前正在做的，通過幾 E flops 的推理算力做仿真測(cè)試。這個(gè)算力水平，即使再強(qiáng)的車端芯片也無法做到。

3）空談架構(gòu)不如看療效。在自動(dòng)駕駛領(lǐng)域，脫離了海量真實(shí)數(shù)據(jù)談模型架構(gòu)都是空中樓閣，我們之所以堅(jiān)持 VLA，是因?yàn)槲覀儞碛袛?shù)百萬輛車構(gòu)建的數(shù)據(jù)閉環(huán)，這讓我們能在當(dāng)前算力下，把駕駛水平做到接近人類。

再說具身智能。

要想做好自動(dòng)駕駛，必須先把自動(dòng)駕駛當(dāng)作完整的具身智能系統(tǒng)對(duì)待，每一部分在研發(fā)過程中要相互配合才能將價(jià)值發(fā)揮出來。人類駕駛車輛并不需要特別強(qiáng)的能力，普通人都能學(xué)會(huì)。但這里講的普通人，是各部分都能相互協(xié)調(diào)的正常人。

再強(qiáng)的大腦，如果配的是高度近視的眼睛和不靈活的身體，是開不了車的。具身智能系統(tǒng)包括感知（眼睛）、模型（大腦）、操作系統(tǒng)（神經(jīng)）、芯片（心臟）、本體（身體）。需要做到全棧自研，不僅僅是軟件棧，而是整體軟硬全棧。理想的自動(dòng)駕駛團(tuán)隊(duì)與基座模型、芯片、底盤團(tuán)隊(duì)協(xié)同打造了整個(gè)的自動(dòng)駕駛系統(tǒng)。

基座和芯片大家比較了解不多說了，底盤方面給一個(gè)簡單例子。底盤的 VMM（車輛運(yùn)動(dòng)管理）模塊會(huì)對(duì)自動(dòng)駕駛的控制信號(hào)做精細(xì)化調(diào)校，在減速過程中區(qū)分卡鉗制動(dòng)和液壓制動(dòng)的使用策略，兼顧安全性和舒適體驗(yàn)，實(shí)現(xiàn)“身體”和“大腦”的協(xié)同價(jià)值。

模型的關(guān)鍵是要與整個(gè)具身智能系統(tǒng)適配，在此基礎(chǔ)上，數(shù)據(jù)是起決定意義的。在機(jī)器人領(lǐng)域獲取數(shù)據(jù)相對(duì)困難，但在自動(dòng)駕駛領(lǐng)域，特別是建立起數(shù)據(jù)閉環(huán)能力的車企來說并不是大問題。理想不僅可以從過去幾年積累的 10 幾億公里的存量數(shù)據(jù)里進(jìn)行挖掘和篩選，更可以通過 150 萬車主的日常使用源源不斷的獲取新的數(shù)據(jù)。這與用數(shù)據(jù)采集車做數(shù)據(jù)是完全不同的，其質(zhì)量和分布相比真實(shí)情況是有很大差距的。

另外，在篩選數(shù)據(jù)過程中，我們也發(fā)現(xiàn)很多有趣現(xiàn)象，比如有接近 40% 的人類駕駛數(shù)據(jù)都是偏一側(cè)開車的，也幾乎不會(huì)嚴(yán)格卡著限速值開車。我們認(rèn)為其實(shí)這才是符合人類的駕駛行為，所以并沒有刻意刪除這些數(shù)據(jù)樣本。大家在使用 AD Max 時(shí)如果發(fā)現(xiàn)也有這些行為，那是模型跟各位學(xué)習(xí)到的習(xí)慣。

想哥在前兩天明確提到，未來五到十年，具身機(jī)器人核心將有兩種形態(tài)：汽車類的具身機(jī)器人、人形類的具身機(jī)器人。理想的 VLA 不僅服務(wù)于現(xiàn)在的理想各類汽車產(chǎn)品形態(tài)，也將服務(wù)于未來的汽車類具身機(jī)器人。