剛剛離開實驗室的機(jī)器人,想要在實際的場景中創(chuàng)造效益,需要多久?
近日,具身智能初創(chuàng)企業(yè)靈初智能發(fā)布了Psi-R1大模型,并稱搭載了這個“真正的VLA模型(Vision-Language-Action,視覺語言動作模型)”的機(jī)器人,能夠在開放場景下解決長程復(fù)雜任務(wù)。作為當(dāng)前具身智能領(lǐng)域的技術(shù)突破看點,處在發(fā)展早期的VLA模型已然成為了各家機(jī)器人廠商秀技術(shù)的標(biāo)的。第一財經(jīng)記者梳理發(fā)現(xiàn),2025年以來,至少有七家企業(yè)都發(fā)布了VLA相關(guān)的模型,其中包括Physical Intelligence、英偉達(dá)、銀河通用等。
另一邊,具身大模型的發(fā)展,也讓機(jī)器人在落地上找到了更多機(jī)會。截至目前,F(xiàn)igure 、開普勒、優(yōu)必選、樂聚等多家機(jī)器人廠商也都已經(jīng)宣布旗下機(jī)器人“進(jìn)廠打工”。不過,第一財經(jīng)記者了解到,從實驗室到“進(jìn)廠”,人形機(jī)器人想要在泛工業(yè)、零售場景“上工”,還需要走過漫長的概念驗證階段,如今的人形機(jī)器人大部分還處在“試用期”。
相比拍出一段酷炫的打工視頻,概念驗證階段需要證明產(chǎn)品——也就是人形機(jī)器人的技術(shù)成功率、可靠性、效率、成本和收益,這些數(shù)據(jù)橫亙在人形機(jī)器人技術(shù)突破與商業(yè)化落地之間,是每一家想要實現(xiàn)落地的人形機(jī)器人企業(yè)都必須啃的“硬骨頭”。
動作信號輸入成VLA模型難點
“碰!”“吃!”“杠上開花!”
第一財經(jīng)記者看到,在靈初智能發(fā)布的視頻中,搭載了Psi-R1模型的機(jī)器人PsiBot V1,能夠在開放環(huán)境中和人類同伴打麻將。從洗牌、拿牌、翻牌到打牌,PsiBot V1看到“麻友”打牌的動作、打出的花色,聽到“麻友”的指令之后,打出自己的下一張牌。
盡管人類能夠在熟知打麻將的規(guī)則之后,在一次次判斷中準(zhǔn)確地打出一張牌,但對于機(jī)器人來說,拆解打麻將的每一個動作,并穩(wěn)定地進(jìn)行輸出,都是一個復(fù)雜的工程。
作為一家重點攻克具身大模型和靈巧手操作的企業(yè),打麻將是靈初智能有意挑選的展示場景。在這個場景中,機(jī)器人首先需要通過自身的視覺、聽覺、觸覺等傳感器獲取牌面圖像信息,并實時接收包括音頻、動作等輸入信息,以推斷出一個出牌策略,并進(jìn)行決策操作。
相比于大部分VLA模型只能聽從語音、圖片等指令,將動作進(jìn)行輸出,R1將人類“麻友”打牌的動作也作為了輸入端的信號。
在小紅書上,記者看到了一位博主曬出的一段視頻,博主將頭部品牌的機(jī)器人帶入家中,并通過語音的方式向機(jī)器人下達(dá)了“做家務(wù)”的指令。然而,這個機(jī)器人卻在握住掃把后,機(jī)械地清理同一塊地面。機(jī)器人僅僅做到了語音跟隨,無法進(jìn)行實際的工作。
“本質(zhì)上來說,對于搭載了這類模型的機(jī)器人而言,機(jī)器人大腦在進(jìn)行規(guī)劃的時候,模型所依據(jù)的只有眼睛看到的視覺信息、聽到的語言信息,以及機(jī)器人的一些關(guān)節(jié)狀態(tài)信息?!膘`初智能創(chuàng)始人王啟斌向記者解釋,當(dāng)動作不作為大腦規(guī)劃的輸入,就有可能出現(xiàn)上述狀況?!皠幼鳑]有作為大腦規(guī)劃的輸入,意味著機(jī)器人大腦并不知道動作執(zhí)行的具體情況,它仍然按照原來基于視覺和語言信息規(guī)劃的路徑和動作序列繼續(xù)執(zhí)行,因此會產(chǎn)生偏差。”
動作信號的缺失,導(dǎo)致了部分VLA模型缺乏泛化性,也影響了機(jī)器人長線推理能力的準(zhǔn)確性。在家庭場景,也許這種缺失只是造成打碎一個杯子、地面不整潔的后果,但如果是商超,工業(yè)場景呢?
“因此我們認(rèn)為只有將動作作為輸入,參與規(guī)劃層推理,才能在非結(jié)構(gòu)化的場景真正實現(xiàn)工程化的落地?!蓖鯁⒈笳f。
今年以來,中國和海外的多家機(jī)器人企業(yè)都開始發(fā)力VLA模型。今年年初,銀河通用發(fā)布了完全基于仿真合成大數(shù)據(jù)訓(xùn)練出來的大模型GraspVLA;2月,F(xiàn)igure發(fā)布了自研的VLA模型“Helix”;英偉達(dá)也在在2025 GTC大會上發(fā)布了VLA模型Isaac GR00T N1;Physical Intelligence也在4月下旬發(fā)布了新的VLA模型π0.5。
在視頻里,這些搭載了VLA模型的機(jī)器人們或能夠進(jìn)行簡單操作,或能夠展示雙機(jī)器人協(xié)作的能力?!昂芏嘁曨l里展現(xiàn)的機(jī)器人操作,其實用簡單的模仿學(xué)習(xí)加原子技能調(diào)用就可以完成,體現(xiàn)不出VLA模型的自主推理能力。”一位國內(nèi)具身大模型企業(yè)高層向第一財經(jīng)記者解釋,VLA是當(dāng)前具身智能技術(shù)突破的重要標(biāo)志,也是機(jī)器人公司想要融資、曝光度、體現(xiàn)自身的先進(jìn)性的手段,“有一個好的名字,好的展示視頻很重要”。
亂花漸欲迷人眼,蒙太奇手法讓真實的技術(shù)隱在了VLA的殼子里。
“真正的VLA需要具備幾個特點,搭載VLA模型的機(jī)器人需要有長時序的動作執(zhí)行能力,能跟隨帶有描述性的語言指令,并且這些都由同一個模型直出完成所有任務(wù),而非靠多個模型。”星海圖聯(lián)合創(chuàng)始人、清華大學(xué)交叉信息研究院助理教授許華哲向第一財經(jīng)記者解釋道。
“轉(zhuǎn)正”還需要多久?
機(jī)器人想要進(jìn)廠打工,一步到位難于登天。
已經(jīng)宣布在寶馬“上工”的美國機(jī)器人初創(chuàng)公司Figure,近期就陷入了“造假”爭議。在此前公布的視頻中,F(xiàn)igure向外界展示了多臺機(jī)器人在寶馬工廠中作業(yè)的場景。但寶馬方面的發(fā)言人Steve Wilson卻指出,實際狀況是“任何時候都只有一臺 Figure 機(jī)器人”執(zhí)行任務(wù)。他還表示,截至今年三月,F(xiàn)igure的人形機(jī)器人只在非生產(chǎn)時段進(jìn)行簡單的零件搬運訓(xùn)練,主要承擔(dān)的工作是零件拿放工作。
在大部分機(jī)器人廠商秀出的打工視頻里,人形機(jī)器人看上去是那么智能、流暢、高效。但企業(yè)的鏡頭之后,如何將機(jī)器人的算法與硬件耦合,如何確保精準(zhǔn)和安全性,這些都是需要經(jīng)過概念驗證的細(xì)節(jié),考驗的是團(tuán)隊的工程化能力。
根據(jù)王啟斌透露的信息,機(jī)器人想要接到工廠的實際訂單,要經(jīng)過起碼三個階段,時間可能需要一年。
“第一個階段是在實驗室進(jìn)行為期三個月的內(nèi)測,我們會一比一搭建、復(fù)刻實際的工廠環(huán)境?!蓖鯁⒈笳f,在此期間,團(tuán)隊需要根據(jù)場景進(jìn)行新的數(shù)據(jù)采集、模型調(diào)優(yōu),并且確保硬件整機(jī)的穩(wěn)定性。
完成了這一步之后,需要前往客戶的場景中進(jìn)行為期三個月的驗證階段。當(dāng)打磨后的大模型實際落地,技術(shù)理想和現(xiàn)實場景的分歧才剛剛顯現(xiàn)。
正如王啟斌所說:“很多問題都是走進(jìn)工廠才會發(fā)現(xiàn)?!痹趯嶋H的工廠中,光線條件復(fù)雜,可能干擾機(jī)器人視覺系統(tǒng)對物體的識別和定位;現(xiàn)場存在大量機(jī)器設(shè)備,產(chǎn)生的電磁干擾會影響機(jī)器人的信號傳輸,導(dǎo)致指令延遲或錯誤;不同工廠的生產(chǎn)流程和布局差異極大,機(jī)器人需快速適應(yīng)新的空間環(huán)境和操作路徑規(guī)劃。
同時,客戶也會針對這個環(huán)節(jié)提出成功率、作業(yè)效率的要求。“這三個月,客戶對成功性有一定的要求,效率需要達(dá)到實際人工作業(yè)的60%左右?!蓖鯁⒈笸嘎?。
六個月后,機(jī)器人才可以在有人陪產(chǎn)的狀況下,進(jìn)行實際部署?!斑@個階段產(chǎn)品要真正在生產(chǎn)環(huán)境中運行,承受生產(chǎn)環(huán)境的壓力。” 靈初智能聯(lián)合創(chuàng)始人、強(qiáng)化學(xué)習(xí)負(fù)責(zé)人陳源培告訴第一財經(jīng)記者,工廠中存在很多不可控因素,比如突然地人為打斷、避讓,需要機(jī)器人在這些場景中有效反饋。
這意味著機(jī)器人的上層大腦需要具備有效的推理能力?!爱?dāng)有人發(fā)出‘讓一讓’或是‘幫忙撿一下’的指令時,機(jī)器人的上層大腦需要聽得懂,也就是對這些信號進(jìn)行分析和推理,迅速作出合理反應(yīng),調(diào)整當(dāng)前任務(wù)流程。”陳源培表示,在實際的訓(xùn)練中,團(tuán)隊會通過強(qiáng)化學(xué)習(xí),在模擬環(huán)境中利用一些被打斷的數(shù)據(jù)進(jìn)行訓(xùn)練,優(yōu)化決策策略,增強(qiáng)上層大腦應(yīng)對打斷的推理和決策能力。
跟工業(yè)機(jī)器人搶崗位?精細(xì)化才是目標(biāo)
在產(chǎn)品驗證階段,除了工程化能力之外,最難的恰恰是“選擇場景”,也就是王啟斌口中所說的“第一刀扎在哪里”。
第一財經(jīng)梳理發(fā)現(xiàn),在一些泛工業(yè)場景,已經(jīng)進(jìn)廠的人形機(jī)器人們,大多數(shù)從事的是一些放置、搬運、檢測的工種。在浙江寧波前灣新區(qū)的吉利汽車極氪5G智慧工廠,優(yōu)必選S1工業(yè)人形機(jī)器人開始進(jìn)行搬運物料的工作,并對車標(biāo)及車燈實施毫米級無損傷檢測;樂聚旗下的人形機(jī)器人“夸父”也在汽車工廠中進(jìn)行搬運物料箱的操作;在今年3月公布的新視頻中,波士頓動力的機(jī)器人Atlas也進(jìn)入了汽車廠進(jìn)行零件排序的工作;本月宣布在上汽通用工廠落地的開普勒K2則能夠在工廠中完成車身縫隙檢測等任務(wù)。
不過,對于一些自動化足夠高的“黑燈工廠”,布滿工業(yè)機(jī)器人的自動化流水線已經(jīng)足夠能夠解決人力不足的問題,人形機(jī)器人如果僅僅是替代機(jī)械臂、帶移動底盤的搬運叉車,意義在哪里?
“我們希望在未來,人形機(jī)器人進(jìn)廠,所做的工作都是目前只能通過人力,自動化設(shè)備無法做的那些?!蓖鯁⒈笾赋觯趫鼍奥涞氐倪x擇上,自己會優(yōu)先選擇更需要人工完成、具有遷移性和通用性的場景,例如3C制造的質(zhì)檢車間。
在他的邏輯里,在3C制造的質(zhì)檢車間中,細(xì)致化、靈活化的操作仍然需要由通用性更強(qiáng)的人形機(jī)器人完成:抓取以零點幾毫米為單位的微小原料,完成不同零部件的數(shù)量清點和外觀檢測……在多個SKU、工位動態(tài)變化的情況下,自動化設(shè)備的固定化特征無法解決這些工作?!懊總€場景中,單個操作所拆分出來的原子動作有多少、每個動作中的節(jié)拍是多少、動作串聯(lián)的成功率是否能夠穩(wěn)定下來,這些都需要專業(yè)的工程化團(tuán)隊去解決,并用結(jié)果說服客戶?!?/p>
或許,顆粒度足夠小、泛化性足夠高的崗位,才是人形機(jī)器人最后在工廠中實際想要“應(yīng)征上崗”的目標(biāo)。
陳源培也察覺到,相比技術(shù)的完美性,客戶更關(guān)注落地的可行性?!熬呱碇悄艿腣LA模型仍然在發(fā)展早期,長程任務(wù)的推理能力仍然可能增加機(jī)器人操作實時性降低的風(fēng)險,后期我們也需要進(jìn)一步通過模型、推理優(yōu)化的方式來確保工業(yè)場景中的實時控制要求。”
鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如作者信息標(biāo)記有誤,請第一時間聯(lián)系我們修改或刪除,多謝。