
作者:Paul Veradittakit,Pantera Capital合伙人;翻譯:xiaozou
摘要:
VLA創(chuàng)新與規(guī)模效應(yīng)正推動(dòng)著經(jīng)濟(jì)實(shí)惠、高效且通用型人形機(jī)器人的誕生。
隨著倉儲(chǔ)機(jī)器人向消費(fèi)級(jí)機(jī)器人市場擴(kuò)張,機(jī)器人安全、融資與評(píng)估機(jī)制值得深入探索。
加密技術(shù)將通過為機(jī)器人安全提供經(jīng)濟(jì)擔(dān)保,并優(yōu)化其對(duì)接基礎(chǔ)設(shè)施、延遲及數(shù)據(jù)采集流程,從而推動(dòng)機(jī)器人行業(yè)發(fā)展。
ChatGPT徹底改寫了人類對(duì)人工智能的認(rèn)知預(yù)期。當(dāng)大語言模型開始與外部軟件世界交互時(shí),許多人曾認(rèn)為AI智能體就是終極形態(tài)。但若回顧《星球大戰(zhàn)》、《銀翼殺手》或《機(jī)械戰(zhàn)警》等經(jīng)典科幻電影就會(huì)發(fā)現(xiàn),人類真正夢想的是人工智能能以機(jī)器人形態(tài)實(shí)現(xiàn)物理世界的交互。
在Pantera?Capital看來,機(jī)器人領(lǐng)域的"ChatGPT時(shí)刻"即將到來。我們將首先分析過去數(shù)年間人工智能的突破如何改變行業(yè)格局,繼而探討電池技術(shù)、延遲優(yōu)化與數(shù)據(jù)采集改進(jìn)將如何塑造未來圖景,以及加密技術(shù)在其中扮演的角色。最后我們將闡釋為何認(rèn)為機(jī)器人安全、融資、評(píng)估及教育是需要重點(diǎn)關(guān)注的垂直領(lǐng)域。
1、變革要素
(1)人工智能突破
多模態(tài)大語言模型領(lǐng)域的進(jìn)展正賦予機(jī)器人執(zhí)行復(fù)雜任務(wù)所需的"大腦"。機(jī)器人主要通過視覺與聽覺兩種感官感知環(huán)境。
傳統(tǒng)計(jì)算機(jī)視覺模型(如卷積神經(jīng)網(wǎng)絡(luò))雖擅長物體檢測或分類任務(wù),卻難以將視覺信息轉(zhuǎn)化為有目的的行動(dòng)指令。大語言模型雖在文本理解與生成方面表現(xiàn)卓越,卻受限于對(duì)物理世界的感知能力。
通過視覺-語言-行動(dòng)模型(VLA),機(jī)器人得以在統(tǒng)一的計(jì)算框架中整合視覺感知、語言理解與實(shí)體行動(dòng)。2025年2月,F(xiàn)igure AI發(fā)布了通用人形機(jī)器人控制模型Helix,該VLA模型憑借零樣本泛化能力和系統(tǒng)1/系統(tǒng)2雙架構(gòu)為行業(yè)樹立新標(biāo)桿。零樣本泛化特性使機(jī)器人無需針對(duì)每項(xiàng)任務(wù)進(jìn)行重復(fù)訓(xùn)練,即可即時(shí)適應(yīng)新場景、新物體與新指令。系統(tǒng)1/系統(tǒng)2架構(gòu)將高階推理與輕量級(jí)推理分離,實(shí)現(xiàn)了兼具類人思維與實(shí)時(shí)精準(zhǔn)度的商業(yè)化人形機(jī)器人。
(2)經(jīng)濟(jì)型機(jī)器人成為現(xiàn)實(shí)
改變世界的技術(shù)都具備一個(gè)共同特征——可普及性。智能手機(jī)、個(gè)人電腦、3D打印技術(shù)都通過中產(chǎn)階級(jí)可承受的價(jià)格實(shí)現(xiàn)普及。當(dāng)Unitree G1等機(jī)器人價(jià)格低于本田雅閣轎車或美國3.4萬美元最低年收入時(shí),想象體力勞動(dòng)與日常事務(wù)主要由機(jī)器人完成的世界便不足為奇。
(3)從倉儲(chǔ)走向消費(fèi)級(jí)市場
機(jī)器人技術(shù)正從倉儲(chǔ)解決方案向消費(fèi)領(lǐng)域擴(kuò)展。這個(gè)世界是為人類設(shè)計(jì)的——人類能完成所有專業(yè)機(jī)器人的工作,而專業(yè)機(jī)器人卻無法勝任所有人類的工作。機(jī)器人公司不再局限于制造工廠專用機(jī)器人,轉(zhuǎn)而開發(fā)更具通用性的人形機(jī)器人。因此機(jī)器人技術(shù)的前沿不僅存在于倉庫,更將滲透日常生活。
成本是可擴(kuò)展性的主要瓶頸之一。我們最關(guān)注的指標(biāo)是每小時(shí)綜合成本,其計(jì)算方式為:訓(xùn)練與充電的時(shí)間機(jī)會(huì)成本、任務(wù)執(zhí)行成本及機(jī)器人購置成本之和,除以機(jī)器人總運(yùn)行時(shí)長。該成本需低于相關(guān)行業(yè)平均工資水平才具競爭力。
要全面滲透倉儲(chǔ)領(lǐng)域,機(jī)器人每小時(shí)綜合成本必須低于31.39美元。而在最大的消費(fèi)級(jí)市場——私立教育與健康服務(wù)領(lǐng)域,該成本需控制在35.18美元以下。當(dāng)前機(jī)器人正朝著更廉價(jià)、更高效、更通用的方向發(fā)展。
2、機(jī)器人技術(shù)的下一步突破
(1)電池優(yōu)化
電池技術(shù)始終是用戶友好型機(jī)器人的瓶頸。早期如寶馬i3等電動(dòng)車因電池技術(shù)局限導(dǎo)致續(xù)航短、成本高、實(shí)用性低而難以普及,機(jī)器人正面臨相同困境。波士頓動(dòng)力的Spot機(jī)器人單次續(xù)航僅90分鐘,Unitree G1電池續(xù)航約2小時(shí)。用戶顯然不愿每兩小時(shí)手動(dòng)充電,因此自主充電與對(duì)接基礎(chǔ)設(shè)施成為重點(diǎn)發(fā)展方向。目前機(jī)器人充電主要有兩種模式:電池更換或直接充電。
電池更換模式通過快速替換耗盡電池組實(shí)現(xiàn)持續(xù)作業(yè),最大限度減少停機(jī)時(shí)間,適用于野外或工廠場景。該流程可人工操作也可自動(dòng)化完成。
感應(yīng)充電采用無線供電方式,雖然完整充電耗時(shí)較長,但能輕松實(shí)現(xiàn)全自動(dòng)化流程。
(2)延遲優(yōu)化
低延遲操作可分為環(huán)境感知與遠(yuǎn)程操控兩類。感知指機(jī)器人對(duì)環(huán)境的空間認(rèn)知能力,遠(yuǎn)程操控則特指人類操作員的實(shí)時(shí)控制。
據(jù)Cintrini研究顯示,機(jī)器人感知系統(tǒng)始于廉價(jià)傳感器,但技術(shù)護(hù)城河在于融合軟件、低功耗計(jì)算和毫秒級(jí)精控回路。當(dāng)機(jī)器人完成空間定位后,輕量級(jí)神經(jīng)網(wǎng)絡(luò)將標(biāo)記障礙物、托盤或人類等要素。場景標(biāo)簽輸入規(guī)劃系統(tǒng)后,即刻生成發(fā)送至足部、輪組或機(jī)械臂的電機(jī)指令。50毫秒以下的感知延遲等同于人類反射速度——任何超出此閾值的延遲都會(huì)導(dǎo)致機(jī)器人動(dòng)作笨拙。因此90%的決策需通過單一視覺-語言-行動(dòng)網(wǎng)絡(luò)在本地完成。
全自主機(jī)器人需確保高性能VLA模型延遲低于50毫秒;遠(yuǎn)程操控機(jī)器人則要求操作端與機(jī)器人間的信號(hào)延遲不超過50毫秒。此處VLA模型的重要性尤為凸顯——若視覺與文本輸入分別由不同模型處理后再輸入大型語言模型,整體延遲將遠(yuǎn)超50毫秒閾值。
(3)數(shù)據(jù)收集優(yōu)化
數(shù)據(jù)采集主要有三種途徑:現(xiàn)實(shí)世界視頻數(shù)據(jù)、合成數(shù)據(jù)與遠(yuǎn)程操控?cái)?shù)據(jù)?,F(xiàn)實(shí)數(shù)據(jù)與合成數(shù)據(jù)的核心瓶頸在于彌合機(jī)器人物理行為與視頻/模擬模型間的差異。現(xiàn)實(shí)視頻數(shù)據(jù)缺失力反饋、關(guān)節(jié)運(yùn)動(dòng)誤差和材料形變等物理細(xì)節(jié);模擬數(shù)據(jù)則缺乏傳感器故障、摩擦系數(shù)等不可預(yù)測變量。
最具潛力的數(shù)據(jù)采集方式是遠(yuǎn)程操控——由人類操作員遠(yuǎn)程控制機(jī)器人執(zhí)行任務(wù)。但人力成本是遠(yuǎn)程操控?cái)?shù)據(jù)采集的主要制約因素。
定制硬件開發(fā)也正為高質(zhì)量數(shù)據(jù)采集提供新方案。Mecka公司通過主流方法與定制硬件結(jié)合,采集多維度人類運(yùn)動(dòng)數(shù)據(jù),經(jīng)處理后轉(zhuǎn)化為適用于機(jī)器人神經(jīng)網(wǎng)絡(luò)訓(xùn)練的數(shù)據(jù)集,配合快速迭代周期為AI機(jī)器人訓(xùn)練提供海量高質(zhì)量數(shù)據(jù)。這些技術(shù)管道共同縮短了從原始數(shù)據(jù)到可部署機(jī)器人的轉(zhuǎn)化路徑。
3、重點(diǎn)探索領(lǐng)域
(1)加密技術(shù)與機(jī)器人融合
加密技術(shù)可激勵(lì)去信任方提升機(jī)器人網(wǎng)絡(luò)效率。基于前文所述關(guān)鍵領(lǐng)域,我們認(rèn)為加密技術(shù)能在對(duì)接基礎(chǔ)設(shè)施、延遲優(yōu)化和數(shù)據(jù)收集三方面提升效率。
去中心化物理基礎(chǔ)設(shè)施網(wǎng)絡(luò)(DePIN)有望革新充電基礎(chǔ)設(shè)施。當(dāng)人形機(jī)器人像汽車般全球運(yùn)行時(shí),充電站需如加油站般觸手可及。中心化網(wǎng)絡(luò)需要巨額前期投資,而DePIN將成本分?jǐn)傊凉?jié)點(diǎn)運(yùn)營商,使充電設(shè)施快速擴(kuò)張至更多區(qū)域。
DePIN還可利用分布式基礎(chǔ)設(shè)施優(yōu)化遠(yuǎn)程操控延遲。通過聚合地理分散的邊緣節(jié)點(diǎn)計(jì)算資源,遠(yuǎn)程操控指令可由本地或最近可用節(jié)點(diǎn)處理,最大限度縮短數(shù)據(jù)傳輸距離,顯著降低通信延遲。但當(dāng)前DePIN項(xiàng)目主要聚焦去中心化存儲(chǔ)、內(nèi)容分發(fā)和帶寬共享,雖有項(xiàng)目展示邊緣計(jì)算在流媒體或物聯(lián)網(wǎng)中的應(yīng)用優(yōu)勢,尚未延伸至機(jī)器人或遠(yuǎn)程操控領(lǐng)域。
遠(yuǎn)程操控是最具前景的數(shù)據(jù)采集方式,但中心化實(shí)體雇傭?qū)I(yè)人員采集數(shù)據(jù)的成本極高。DePIN通過加密代幣激勵(lì)第三方提供遠(yuǎn)程操控?cái)?shù)據(jù)解決此問題。Reborn項(xiàng)目構(gòu)建全球遠(yuǎn)程操作員網(wǎng)絡(luò),將其貢獻(xiàn)轉(zhuǎn)化為通證化數(shù)字資產(chǎn),形成無需許可的去中心化系統(tǒng)——參與者既可獲得收益,又能參與治理并助力AGI機(jī)器人訓(xùn)練。
(2)安全始終是核心關(guān)切
機(jī)器人技術(shù)的終極目標(biāo)是實(shí)現(xiàn)完全自主化,但正如《終結(jié)者》系列電影所警示的,人類最不愿看到自主性將機(jī)器人變成攻擊性武器。大語言模型的安全問題已引發(fā)關(guān)注,而當(dāng)這些模型具備實(shí)體行動(dòng)能力時(shí),機(jī)器人安全便成為社會(huì)接納的關(guān)鍵前提。
經(jīng)濟(jì)安全是機(jī)器人生態(tài)繁榮的支柱之一。該領(lǐng)域的OpenMind公司正在構(gòu)建FABRIC——一個(gè)去中心化的機(jī)器協(xié)調(diào)層,通過密碼學(xué)證明實(shí)現(xiàn)設(shè)備身份認(rèn)證、物理存在驗(yàn)證及資源獲取。不同于簡單的任務(wù)市場管理,F(xiàn)ABRIC使機(jī)器人能夠不依賴中心化中介,自主證明身份信息、地理位置與行為記錄。
行為約束與身份認(rèn)證通過鏈上機(jī)制執(zhí)行,確保任何人均可審計(jì)合規(guī)性。符合安全標(biāo)準(zhǔn)、質(zhì)量要求和區(qū)域規(guī)范的機(jī)器人將獲得獎(jiǎng)勵(lì),違規(guī)者則面臨懲罰或取消資格,從而在自主機(jī)器網(wǎng)絡(luò)中建立問責(zé)與信任機(jī)制。
第三方再質(zhì)押網(wǎng)絡(luò)(如Symbiotic)同樣能提供對(duì)等的安全擔(dān)保。盡管懲罰參數(shù)體系仍需完善,相關(guān)技術(shù)已進(jìn)入實(shí)用階段。我們預(yù)計(jì)行業(yè)安全準(zhǔn)則即將形成,屆時(shí)懲罰參數(shù)將參照這些準(zhǔn)則建模。
實(shí)施方案示例:
機(jī)器人公司加入Symbiotic網(wǎng)絡(luò)。
設(shè)定可驗(yàn)證的罰沒參數(shù)(如"施加超過2500牛頓的人類接觸力");
質(zhì)押者提供保證金確保機(jī)器人遵守參數(shù);
若發(fā)生違規(guī),質(zhì)押金將作為受害者賠償金。
該模式既激勵(lì)企業(yè)將安全性置于首位,又通過質(zhì)押資金池的保險(xiǎn)機(jī)制促進(jìn)消費(fèi)者接受度。
Symbiotic團(tuán)隊(duì)對(duì)機(jī)器人領(lǐng)域的見解是:
Symbiotic通用質(zhì)押框架旨在將質(zhì)押概念延伸至所有需要經(jīng)濟(jì)安全背書的領(lǐng)域,無論是通過共享還是獨(dú)立模式。其應(yīng)用場景從保險(xiǎn)到機(jī)器人技術(shù)需具體案例具體設(shè)計(jì)。例如機(jī)器人網(wǎng)絡(luò)可完全基于Symbiotic框架構(gòu)建,使利益相關(guān)方能為網(wǎng)絡(luò)完整性提供經(jīng)濟(jì)擔(dān)保。
4、填補(bǔ)機(jī)器人技術(shù)棧的空白
OpenAI推動(dòng)了AI的普及,但ChatGPT時(shí)刻的基石早已奠定。云服務(wù)打破了模型對(duì)本地算力的依賴,Huggingface實(shí)現(xiàn)了模型開源,Kaggle為AI工程師提供了實(shí)驗(yàn)平臺(tái)。這些漸進(jìn)式突破共同促成了AI的大眾化。
與AI不同,機(jī)器人領(lǐng)域在資金有限時(shí)難以入門。要實(shí)現(xiàn)機(jī)器人普及,其開發(fā)門檻需降至AI應(yīng)用開發(fā)般的便捷程度。我們認(rèn)為三個(gè)層面存在改進(jìn)空間:融資機(jī)制、評(píng)估體系與教育生態(tài)。
融資是機(jī)器人領(lǐng)域的痛點(diǎn)。開發(fā)計(jì)算機(jī)程序僅需一臺(tái)電腦和云計(jì)算資源,而構(gòu)建功能完整的機(jī)器人必須采購電機(jī)、傳感器、電池等硬件,成本輕易突破10萬美元。這種硬件屬性使機(jī)器人開發(fā)相比AI缺乏靈活性且成本高昂。
現(xiàn)實(shí)場景的機(jī)器人評(píng)估基礎(chǔ)設(shè)施尚處萌芽期。AI領(lǐng)域已建立明確的損失函數(shù)體系,測試可完全虛擬化。但優(yōu)秀的虛擬策略無法直接轉(zhuǎn)化為現(xiàn)實(shí)世界的有效方案。機(jī)器人需要在多樣化現(xiàn)實(shí)環(huán)境中測試自主策略的評(píng)估設(shè)施,才能實(shí)現(xiàn)迭代優(yōu)化。
當(dāng)這些基礎(chǔ)架構(gòu)成熟后,人才將大量涌入,人形機(jī)器人將重演Web2的爆發(fā)曲線。加密機(jī)器人公司OpenMind正朝此方向推進(jìn)——其開源項(xiàng)目OM1("機(jī)器人版安卓系統(tǒng)")將原始硬件轉(zhuǎn)化為具備經(jīng)濟(jì)意識(shí)的可升級(jí)智能體。視覺、語言和運(yùn)動(dòng)規(guī)劃模塊可像手機(jī)應(yīng)用般即插即用,所有推理步驟均以簡明英語呈現(xiàn),使操作員無需接觸固件即可審計(jì)或調(diào)整行為。這種自然語言推理能力讓新一代人才無縫進(jìn)入機(jī)器人領(lǐng)域,為引爆機(jī)器人革命的開放平臺(tái)邁出關(guān)鍵一步,正如開源運(yùn)動(dòng)對(duì)AI的加速作用。
人才密度決定行業(yè)軌跡。結(jié)構(gòu)化的普惠教育體系對(duì)機(jī)器人領(lǐng)域人才輸送至關(guān)重要。OpenMind登陸納斯達(dá)克標(biāo)志著智能機(jī)器同時(shí)參與金融創(chuàng)新與實(shí)體教育的新紀(jì)元開啟。OpenMind與Robostore聯(lián)合宣布,將在美國K-12公立學(xué)校推出首個(gè)基于Unitree G1人形機(jī)器人的通用教育課程。該課程設(shè)計(jì)具備平臺(tái)無關(guān)性,可適配各類機(jī)器人形態(tài),為學(xué)生提供實(shí)踐操作機(jī)會(huì)。這一積極信號(hào)強(qiáng)化了我們的判斷:未來數(shù)年機(jī)器人教育資源的豐富程度將比肩AI領(lǐng)域。
5、未來展望
視覺-語言-行動(dòng)模型(VLA)的創(chuàng)新與規(guī)模經(jīng)濟(jì)效應(yīng),已催生出經(jīng)濟(jì)實(shí)惠、高效且通用的人形機(jī)器人。隨著倉儲(chǔ)機(jī)器人向消費(fèi)級(jí)市場擴(kuò)展,安全性、融資模式與評(píng)估體系成為關(guān)鍵探索方向。我們堅(jiān)信加密技術(shù)將通過三重路徑推動(dòng)機(jī)器人發(fā)展:為安全提供經(jīng)濟(jì)擔(dān)保、優(yōu)化充電基礎(chǔ)設(shè)施、提升延遲表現(xiàn)與數(shù)據(jù)收集管道。






.png)





















