
圖源:Unsplash / Possessed Photography
撰文|劉少山
● ● ●
過(guò)去一年里,我被問(wèn)得最多的問(wèn)題之一是:未來(lái)的機(jī)器人是否一定會(huì)走向人形?這一問(wèn)題在科技界引發(fā)了大量討論,其背后其實(shí)對(duì)應(yīng)著兩種截然不同的技術(shù)哲學(xué),“創(chuàng)世論”與“進(jìn)化論”。所謂“創(chuàng)世論”,是指只要把某一種機(jī)器人形態(tài)做到足夠強(qiáng)大、足夠全面,它最終就能解決所有類型的問(wèn)題。在這種理念中,人形機(jī)器人被視為最接近“通用形態(tài)”的存在,因此許多公司試圖通過(guò)不斷增強(qiáng)一款人形機(jī)器人,讓它承擔(dān)從搬運(yùn)、清潔到陪伴、護(hù)理的各種任務(wù),仿佛在“創(chuàng)造”一個(gè)萬(wàn)能的技術(shù)生命體。
與之相對(duì)的“進(jìn)化論”則認(rèn)為,機(jī)器人應(yīng)像自然界的生命一樣,根據(jù)場(chǎng)景需求不斷分化和演化為不同形態(tài),沒(méi)有任何一種形態(tài)是預(yù)設(shè)的終極答案,而是依靠大規(guī)模應(yīng)用帶來(lái)的數(shù)據(jù)、成本、效率和場(chǎng)景適配度來(lái)決定成敗。從掃地機(jī)器人到倉(cāng)儲(chǔ)機(jī)械臂,從室內(nèi)移動(dòng)底盤到外骨骼,每一種形態(tài)都在市場(chǎng)競(jìng)爭(zhēng)和現(xiàn)實(shí)約束中經(jīng)歷“物競(jìng)天擇”:適應(yīng)場(chǎng)景和經(jīng)濟(jì)性的形態(tài)得以規(guī)?;?,不具備場(chǎng)景價(jià)值或成本優(yōu)勢(shì)的形態(tài)則自然會(huì)被淘汰。在具身智能逐步走向大規(guī)模應(yīng)用的過(guò)程中,我個(gè)人更相信“進(jìn)化論”的道路,它更符合商業(yè)規(guī)律、技術(shù)演化的真實(shí)路徑,也更符合這個(gè)復(fù)雜世界的真實(shí)結(jié)構(gòu)。
01
觀點(diǎn)一:讓一個(gè)機(jī)器人適應(yīng)所有場(chǎng)景是線性進(jìn)化,而多種形態(tài)并行演化才是指數(shù)級(jí)效率
如果從工程和商業(yè)的角度冷靜審視,試圖讓單一機(jī)器人形態(tài)適應(yīng)所有場(chǎng)景,幾乎注定是一條線性且低效的演進(jìn)路徑。假設(shè)我們希望一臺(tái)人形機(jī)器人同時(shí)勝任清潔、烹飪、護(hù)理、遞物、整理等完全不同的任務(wù),那么每新增一個(gè)場(chǎng)景,都意味著要額外構(gòu)建一整套動(dòng)作庫(kù)、采集對(duì)應(yīng)的數(shù)據(jù)、開(kāi)發(fā)新的感知與決策模型,并通過(guò)大量安全與可靠性驗(yàn)證。這類能力擴(kuò)展本質(zhì)上是“串行累積”:每跨入一個(gè)新領(lǐng)域,都需要投入巨量工程資源,而且不同場(chǎng)景之間的技能遷移度有限,很難通過(guò)某一次突破帶來(lái)整體能力的指數(shù)級(jí)躍遷。現(xiàn)實(shí)中,人形機(jī)器人在高自由度控制、精細(xì)力控和復(fù)雜視覺(jué)理解等方面仍存在大量技術(shù)難題,而在許多具體任務(wù)場(chǎng)景里,人形的結(jié)構(gòu)優(yōu)勢(shì)并不明顯,甚至不如專用機(jī)器人高效。這使得“讓一臺(tái)人形機(jī)器人包打天下”在實(shí)踐中往往陷入緩慢的線性演進(jìn):可以做的事越來(lái)越多,但每邁出一步都成本高昂、周期漫長(zhǎng)。
反觀現(xiàn)實(shí)世界,許多機(jī)器人形態(tài)已經(jīng)在各自垂直場(chǎng)景中實(shí)現(xiàn)了大規(guī)模應(yīng)用,并沿著自己的賽道高速進(jìn)化。以掃地機(jī)器人為例,經(jīng)過(guò)十多年的發(fā)展,全球清潔機(jī)器人市場(chǎng)已經(jīng)形成“數(shù)億臺(tái)級(jí)別”的保有量,僅頭部廠商就累計(jì)出貨數(shù)千萬(wàn)臺(tái)。在這樣的大規(guī)模基礎(chǔ)上,導(dǎo)航、路徑規(guī)劃、避障、地面建模、纏繞處理等能力得到了持續(xù)優(yōu)化,背后依托的是每天在真實(shí)家庭環(huán)境中產(chǎn)生的海量運(yùn)行數(shù)據(jù),而不是在實(shí)驗(yàn)室中“設(shè)計(jì)出完美通用形態(tài)”。外賣配送和園區(qū)/校園配送機(jī)器人在中國(guó)等地已較為常見(jiàn),它們?cè)趶?fù)雜道路結(jié)構(gòu)和高頻任務(wù)調(diào)度中,快速積累了導(dǎo)航策略、傳感器融合和異常場(chǎng)景處理的豐富經(jīng)驗(yàn)。倉(cāng)儲(chǔ)物流中的機(jī)械臂與 AGV 系統(tǒng),每天在電商和制造企業(yè)的倉(cāng)庫(kù)里執(zhí)行上億次抓取與搬運(yùn)操作,形成了極其龐大的動(dòng)作樣本和失敗樣本,使得抓取策略、路徑規(guī)劃和系統(tǒng)魯棒性在幾年內(nèi)實(shí)現(xiàn)了跨越式迭代。
從這個(gè)角度看,多種機(jī)器人形態(tài)在各自高頻場(chǎng)景中并行演化,形成的是一種“生態(tài)式”的指數(shù)級(jí)能力增長(zhǎng)。每一種形態(tài)都在自己最擅長(zhǎng)、最高頻的場(chǎng)景里快速迭代,通過(guò)真實(shí)世界持續(xù)反饋推動(dòng)算法和系統(tǒng)不斷優(yōu)化,而并不需要等到某個(gè)“終極形態(tài)”完善之后再統(tǒng)一賦能。這種結(jié)構(gòu)性的差異意味著,多形態(tài)并行演化比單形態(tài)通吃式通用化,更符合技術(shù)發(fā)展規(guī)律和商業(yè)規(guī)?;壿嫛<幢阄磥?lái)不同形態(tài)之間會(huì)逐漸沉淀出一組“共性能力”,甚至在某些場(chǎng)景中自然收斂為類似人形的結(jié)構(gòu),那也應(yīng)被視為規(guī)?;M(jìn)化后的結(jié)果,而不是一開(kāi)始就被寫死在技術(shù)藍(lán)圖上的答案。具身智能真正的效率和活力,來(lái)自一個(gè)多物種、多路徑的生態(tài),而不是來(lái)自某個(gè)單一形態(tài)的極限強(qiáng)化。
02
觀點(diǎn)二:具備基礎(chǔ)出貨量的機(jī)器人形態(tài),更有演化潛力與成本優(yōu)勢(shì)
如果多形態(tài)并行演化是更高效的道路,那么一個(gè)自然的問(wèn)題是:哪些形態(tài)更有資格在這條路上跑得更快?答案往往是那些已經(jīng)在市場(chǎng)上擁有大規(guī)模裝機(jī)量和穩(wěn)定需求的機(jī)器人形態(tài)。掃地機(jī)器人、各類服務(wù)機(jī)器人和移動(dòng)底盤之所以發(fā)展迅速,并不是因?yàn)樗鼈冊(cè)诮Y(jié)構(gòu)上多么“接近人形”,而是因?yàn)樗鼈円呀?jīng)擁有數(shù)百萬(wàn)乃至數(shù)千萬(wàn)級(jí)別的年度出貨規(guī)模,在這一基礎(chǔ)上形成了堅(jiān)實(shí)的供應(yīng)鏈體系和成本結(jié)構(gòu)。核心元件如電機(jī)、輪組、減速器、激光雷達(dá)、攝像頭、IMU、電池和主控芯片等,在大批量采購(gòu)和持續(xù)優(yōu)化的過(guò)程中不斷降本增效。同時(shí),這些設(shè)備長(zhǎng)期運(yùn)行在真實(shí)家庭、餐廳、酒店、園區(qū)和倉(cāng)庫(kù)環(huán)境中,產(chǎn)生了遠(yuǎn)超實(shí)驗(yàn)室的感知數(shù)據(jù)、故障樣本和邊緣場(chǎng)景案例,使得算法、結(jié)構(gòu)設(shè)計(jì)與系統(tǒng)穩(wěn)定性都在“用中學(xué)、學(xué)中迭代”。
當(dāng)一種形態(tài)已經(jīng)具備如此龐大的存量和增量基礎(chǔ)時(shí),在其上做輕量級(jí)功能擴(kuò)展,就能以非常高的性價(jià)比快速拓展應(yīng)用邊界。例如,在成熟的掃地機(jī)器人平臺(tái)上加裝一個(gè)輕量機(jī)械臂,可以讓其從單一清掃任務(wù)擴(kuò)展到拾取地面小物件、放回指定區(qū)域、做簡(jiǎn)單的分類和歸位,甚至與家庭成員產(chǎn)生低風(fēng)險(xiǎn)的互動(dòng)。這類“從地面到手部”的升級(jí),由于底盤、導(dǎo)航、供電和控制等基礎(chǔ)設(shè)施已經(jīng)高度成熟,其邊際成本遠(yuǎn)小于從零打造一套全新形態(tài)。類似的思路同樣適用于配送機(jī)器人、餐飲機(jī)器人、巡檢機(jī)器人等,通過(guò)在現(xiàn)有平臺(tái)上添加適當(dāng)?shù)膱?zhí)行機(jī)構(gòu)、傳感器或軟件功能,就能顯著提升任務(wù)價(jià)值密度,進(jìn)入更多高價(jià)值場(chǎng)景
在這種模式下,銷量越大,算法迭代越充分、故障場(chǎng)景覆蓋越全面、供應(yīng)鏈成本越低,進(jìn)而又提升了產(chǎn)品的性價(jià)比和可用性,吸引更多用戶和應(yīng)用場(chǎng)景加入,形成正向反饋。這才是真正意義上的商業(yè)閉環(huán):技術(shù)能力和市場(chǎng)規(guī)模互相促進(jìn),而不是靠單次融資或概念驅(qū)動(dòng)“硬拽”出來(lái)的應(yīng)用。從進(jìn)化的角度看,具身智能的演化并不是從零開(kāi)始設(shè)計(jì)某種“理想軀體”,而是在已有的高頻形態(tài)中不斷疊加能力,逐步向更多場(chǎng)景和更復(fù)雜生態(tài)擴(kuò)散。就像智能手機(jī)的形態(tài)是在幾十億用戶的長(zhǎng)期使用中演化出來(lái),而不是在第一天就被完美設(shè)計(jì)好一樣,那些已經(jīng)在市場(chǎng)中證明自己、具備穩(wěn)定需求和規(guī)?;A(chǔ)的機(jī)器人形態(tài),更有可能成為具身智能演化的主干;而那些缺乏規(guī)?;A(chǔ)、難以形成成本優(yōu)勢(shì)或缺乏真實(shí)場(chǎng)景支撐的形態(tài),則很可能在商業(yè)競(jìng)爭(zhēng)中逐漸被淘汰。
03
觀點(diǎn)三:如果用人形機(jī)器人做所有事情,成本結(jié)構(gòu)會(huì)成為最大阻力
在討論人形機(jī)器人時(shí),最大的現(xiàn)實(shí)掣肘往往不是“能不能做”,而是“值不值得做”,也就是成本結(jié)構(gòu)是否與任務(wù)價(jià)值匹配。當(dāng)前一代人形機(jī)器人普遍采用高度復(fù)雜的機(jī)械和控制系統(tǒng):幾十個(gè)自由度的關(guān)節(jié)驅(qū)動(dòng)器、價(jià)格不菲的精密減速器和高性能電機(jī)、多模態(tài)傳感器(包括多攝像頭、激光雷達(dá)、力矩傳感器、IMU 等)、大容量電池組以及高算力的計(jì)算平臺(tái)。這類系統(tǒng)即便在未來(lái)實(shí)現(xiàn)量產(chǎn),單機(jī)成本短期內(nèi)仍大概率處于數(shù)萬(wàn)美元甚至更高的區(qū)間。與之對(duì)比,清潔機(jī)器人、餐飲服務(wù)機(jī)器人、AGV、協(xié)作機(jī)械臂等成熟形態(tài),其單機(jī)價(jià)格已經(jīng)壓縮到消費(fèi)者可以接受、企業(yè)可以規(guī)模采購(gòu)的水平。
問(wèn)題在于,當(dāng)一臺(tái)造價(jià)極高、結(jié)構(gòu)極其復(fù)雜的人形機(jī)器人被用來(lái)執(zhí)行“擦桌子、端水、疊衣服”這類中低復(fù)雜度任務(wù)時(shí),其大部分硬件能力、冗余自由度和傳感配置在日常工作中很可能并未被真正用到,從而形成典型的“用火箭送快遞”的成本錯(cuò)配。這并不是否認(rèn)技術(shù)上的可行性,而是質(zhì)疑這種形態(tài)在當(dāng)下大部分場(chǎng)景中的經(jīng)濟(jì)意義。相比之下,那些已經(jīng)大規(guī)模應(yīng)用的專用或半通用機(jī)器人形態(tài),在成本與能力之間往往達(dá)成了相對(duì)合理的平衡:掃地機(jī)器人以百美元級(jí)的價(jià)格完成了絕大多數(shù)家庭難以堅(jiān)持的日常清潔工作;商用服務(wù)機(jī)器人在幾萬(wàn)元人民幣的價(jià)格帶上,支撐了餐廳、酒店和醫(yī)院等高頻場(chǎng)景中的穩(wěn)定運(yùn)行;倉(cāng)儲(chǔ)里的 AGV 和機(jī)械臂則通過(guò)針對(duì)性結(jié)構(gòu)設(shè)計(jì),實(shí)現(xiàn)了在固定場(chǎng)景中的高效作業(yè),很少為了“可能有一天會(huì)需要”而預(yù)留大量閑置的自由度和傳感器。
從商業(yè)邏輯上看,如果一種機(jī)器人形態(tài)的總擁有成本明顯高于它所解決問(wèn)題的經(jīng)濟(jì)價(jià)值,那么無(wú)論技術(shù)多么炫目,都難以實(shí)現(xiàn)真正的大規(guī)模部署。人形機(jī)器人如果被設(shè)想為“做所有事的唯一入口”,在絕大多數(shù)中低復(fù)雜度任務(wù)場(chǎng)景中,都會(huì)面臨嚴(yán)重的性價(jià)比壓力。而那些柔性機(jī)器人、模塊化移動(dòng)平臺(tái)、低自由度輕量機(jī)械臂之所以成長(zhǎng)迅速,正是因?yàn)樗鼈儑@特定任務(wù)做了結(jié)構(gòu)約束和成本約束,在安全性、可靠性與成本之間達(dá)成了工程上的平衡。換句話說(shuō),成本結(jié)構(gòu)本身就是具身智能生態(tài)中的一種“自然選擇機(jī)制”:那些在給定場(chǎng)景下用更低成本提供足夠價(jià)值的形態(tài),更容易被市場(chǎng)選中并獲得規(guī)?;婵臻g;而那些過(guò)度設(shè)計(jì)、難以匹配主流需求價(jià)格帶的形態(tài),即便短期因概念極具話題性,也往往難以跨過(guò)長(zhǎng)期商業(yè)化的門檻。最終,哪些機(jī)器人形態(tài)會(huì)真正“活下來(lái)”,不是由某個(gè)技術(shù)路線拍板決定的,而是由成本、需求與規(guī)模效應(yīng)共同完成的長(zhǎng)期篩選。
04
觀點(diǎn)四:規(guī)?;莼?,最終會(huì)出現(xiàn)“共性功能”,其中一部分可能會(huì)自然匯聚成類似人形的形態(tài)
當(dāng)成本結(jié)構(gòu)完成第一輪“自然篩選”之后,幸存下來(lái)的多種機(jī)器人形態(tài),并不會(huì)彼此完全割裂,而是在長(zhǎng)期規(guī)模部署中逐漸顯露出一組被反復(fù)重用的“共性功能”。無(wú)論是清潔機(jī)器人、倉(cāng)儲(chǔ)機(jī)械臂、配送機(jī)器人,還是未來(lái)的護(hù)理機(jī)器人,它們?cè)谧ト ⒁苿?dòng)、視覺(jué)感知、姿態(tài)控制、環(huán)境建模等核心能力上,都會(huì)隨著數(shù)據(jù)和算法的沉淀而不斷趨同?,F(xiàn)實(shí)中,物流倉(cāng)庫(kù)里的機(jī)械臂和家庭中的掃地機(jī)器人雖然外形和工作條件完全不同,但在路徑規(guī)劃、障礙避讓、狀態(tài)估計(jì)這些底層算法上具有高度相似性;自動(dòng)駕駛車輛與室內(nèi)移動(dòng)機(jī)器人在 SLAM、目標(biāo)檢測(cè)和軌跡優(yōu)化方面也共享了大量技術(shù)組件。隨著更多機(jī)器人進(jìn)入真實(shí)環(huán)境,這種“技術(shù)內(nèi)核重疊”的現(xiàn)象只會(huì)愈發(fā)明顯,只是被封裝在不同的外形、任務(wù)接口與軟件棧之中。
在這一過(guò)程中,人形結(jié)構(gòu)有可能在某些特定場(chǎng)景中成為這些共性功能的“匯聚載體”,原因并不是人形在抽象意義上更高級(jí),而是因?yàn)槿祟惖奈锢硎澜缭诤艽蟪潭壬鲜前慈诵卧O(shè)計(jì)的:樓梯高度、門把位置、工具形狀、操作臺(tái)和櫥柜的尺寸,都圍繞著一個(gè)雙足、雙臂、眼睛高度在一米五到一米八之間的生物來(lái)布局。在需要大規(guī)模使用現(xiàn)有工具、頻繁開(kāi)門上下樓梯、搬箱子、穿行于狹窄通道和人類工作空間的場(chǎng)景中,具備與人類相近的身體比例、手部形態(tài)和視角高度,確實(shí)在適配性上具有明顯優(yōu)勢(shì)。許多面向工業(yè)共融和服務(wù)協(xié)作的人形機(jī)器人項(xiàng)目,都強(qiáng)調(diào)無(wú)需改造現(xiàn)有工廠和樓宇環(huán)境、可以直接使用人類工具、在“為人類設(shè)計(jì)的空間”中與人并肩工作,這從側(cè)面印證了人形在“復(fù)用既有物理基礎(chǔ)設(shè)施”方面的天然長(zhǎng)處。
即便如此,這種向人形方向的潛在收斂,依然更像是一種“演化的結(jié)果”,而不是一開(kāi)始就寫死在技術(shù)路線圖上的必然終點(diǎn)。從當(dāng)前現(xiàn)實(shí)出發(fā),在工業(yè)場(chǎng)景中真正規(guī)模落地的是固定基座機(jī)械臂和各類輪式移動(dòng)平臺(tái),而不是雙足人形;在家庭場(chǎng)景中真正進(jìn)入千家萬(wàn)戶的,是掃地機(jī)器人、擦窗機(jī)器人以及若干簡(jiǎn)單的服務(wù)機(jī)器人,而不是能夠獨(dú)立完成全部家務(wù)的全能人形。市場(chǎng)已經(jīng)通過(guò)“用腳投票”的方式,選擇了在成本、可靠性和場(chǎng)景適配度之間平衡得更好的形態(tài)。未來(lái)如果有一天,人形或半人形形態(tài)在某些領(lǐng)域自然成為主流,更大概率是因?yàn)樽ト?、?dǎo)航、平衡控制、視覺(jué)理解、雙手協(xié)作等底層共性能力已經(jīng)在其他形態(tài)上充分成熟,最后在少數(shù)需要高度兼容人類工具與空間的高價(jià)值場(chǎng)景中,被“打包”進(jìn)一個(gè)更接近人形的結(jié)構(gòu)中。
從這個(gè)意義上講,與其一開(kāi)始就把人形當(dāng)作唯一目標(biāo),不如讓不同形態(tài)在各自場(chǎng)景中充分競(jìng)爭(zhēng)、充分演化,由市場(chǎng)和真實(shí)環(huán)境去篩選哪些共性能力是剛需,哪些身體結(jié)構(gòu)真正能提供凈收益。當(dāng)這些共性能力不斷沉淀、在不同形態(tài)間反復(fù)重用時(shí),人形有可能在部分關(guān)鍵領(lǐng)域里,作為一種高通用性的“匯集形態(tài)”自然出現(xiàn),但那是一種順應(yīng)進(jìn)化、順應(yīng)成本和場(chǎng)景約束的結(jié)果,而不是先驗(yàn)的信仰。具身智能領(lǐng)域真正值得追問(wèn)的問(wèn)題,已經(jīng)不再是“要不要人形”,而是“在哪些具體場(chǎng)景中,經(jīng)過(guò)充分演化之后,人形恰好是性價(jià)比最高、適配度最好的那個(gè)答案”。而這一答案,不會(huì)寫在某位工程師的白板上,而是會(huì)在成千上萬(wàn)臺(tái)機(jī)器人與真實(shí)世界的長(zhǎng)期互動(dòng)之中,被緩慢而堅(jiān)定地“選”出來(lái)。
05
結(jié) 語(yǔ)
如個(gè)人認(rèn)為,真正決定具身智能未來(lái)形態(tài)的,從來(lái)不是誰(shuí)畫出一個(gè)“終極人形”,而是無(wú)數(shù)機(jī)器人在真實(shí)世界里的長(zhǎng)期博弈與優(yōu)勝劣汰。與其執(zhí)著于造一個(gè)萬(wàn)能的技術(shù)“神”,不如擁抱多形態(tài)并行演化的生態(tài),讓成本、場(chǎng)景和規(guī)模去篩選最合適的答案。也許有一天,人形會(huì)在某些關(guān)鍵領(lǐng)域自然成為收斂形態(tài),但那是進(jìn)化的結(jié)果。我們要做的,不是替未來(lái)下結(jié)論,而是把更多機(jī)器人盡快送進(jìn)真實(shí)世界,讓時(shí)間和市場(chǎng)完成最后的選擇。
劉少山,深圳人工智能與機(jī)器人研究院(AIRS)具身智能中心主任, 國(guó)際計(jì)算機(jī)學(xué)會(huì)(ACM)技術(shù)政策委員會(huì)成員。
上一篇:豆包AI的“越獄”冒險(xiǎn),手機(jī)生態(tài)控制權(quán)爭(zhēng)奪戰(zhàn)剛剛開(kāi)始
下一篇:沒(méi)有了