具身智能機器人還需突破哪些關(guān)鍵技術(shù)?
- 來源:中國報道 smarty:if $article.tag?>
- 關(guān)鍵字:智能,機器人,技術(shù) smarty:/if?>
- 發(fā)布時間:2025-03-29 19:30
人輕而易舉完成的動作,對于機器人來說并不容易,這通常涉及精確的環(huán)境感知、決策制定以及運動控制等多項技術(shù)。
文 | 《中國報道》記者 劉雪云
平穩(wěn)行走、連續(xù)奔跑、抓取物品……國家地方共建具身智能機器人創(chuàng)新中心(以下簡稱“國創(chuàng)中心”)展示大廳內(nèi),全球首個純電驅(qū)擬人奔跑的全尺寸人形機器人“天工”正自主完成一系列動作。
“人輕而易舉完成的動作,對于機器人來說并不容易,這通常涉及精確的環(huán)境感知、決策制定以及運動控制等多項技術(shù)。”國創(chuàng)中心品牌公關(guān)負責(zé)人魏嘉星對《中國報道》記者表示。
近年來,人工智能的迅猛發(fā)展推動了大模型與機器人技術(shù)的深度融合,顯著提升了機器人的自主決策能力和環(huán)境交互水平。從能夠負重登山、執(zhí)行垃圾清運任務(wù)的“機器狗”,到進入汽車制造企業(yè)完成零部件安裝和高精度操作的人形機器人,具身智能機器人已然進入大眾視野。
行業(yè)關(guān)鍵共性技術(shù)取得顯著進展
回顧機器人的發(fā)展歷程,機器人經(jīng)歷了從“機械自動化”到“環(huán)境感知”再到“認知決策”的智能化演進。
早在20世紀(jì)50年代,第一代工業(yè)機器人已經(jīng)實現(xiàn)了依靠預(yù)編程就能完成任務(wù)指令。20世紀(jì)90年代,麻省理工學(xué)院(MIT)的Genghis六足仿生機器人可以依靠傳感器反饋實現(xiàn)自適應(yīng)行走。進入21世紀(jì)后,強化學(xué)習(xí)正式用于機器人控制。深度學(xué)習(xí)、大語言模型與多模態(tài)融合,機器人具備了“理解指令—規(guī)劃任務(wù)—執(zhí)行動作”的能力,并進一步向通用場景邁進。
“能夠像人類一樣與物理世界產(chǎn)生交互的智能體”是受訪專家們對于具身智能機器人達成的普遍共識,其中人形機器人被認為是具身智能的最佳載體。
傳統(tǒng)工業(yè)機器人作為智能化水平較低的機器人早已在制造業(yè)領(lǐng)域廣泛應(yīng)用,其本質(zhì)是“固定程序”與“機械臂本體”的組合,而具身智能機器人則在于其“多模態(tài)感知”與“大腦決策”的進一步迭代。
形象來說,假設(shè)需要機器人將兩種水果放入對應(yīng)顏色的盤子中,傳統(tǒng)機器人會嚴格按照預(yù)設(shè)路徑執(zhí)行任務(wù),一旦水果位置被移動,它就無法感知變化,仍按照預(yù)設(shè)指令完成任務(wù),最終導(dǎo)致任務(wù)失敗。而具身智能機器人則能夠?qū)崟r觀察周圍的環(huán)境,隨即調(diào)整自己的行為,重新規(guī)劃路徑并完成任務(wù)。
2024年世界機器人大會上發(fā)布的《具身智能產(chǎn)業(yè)發(fā)展報告(2024年)》中提到,具身智能的技術(shù)體系可分為“感知—決策—行動—反饋”4個模塊,而其核心三要素包括本體、環(huán)境和智能。
魏嘉星指出,具身智能機器人由“大腦”(智能)、“小腦”(具身操作+具身運控)和“硬件身體”三部分構(gòu)成,圍繞這三部分展開的技術(shù)攻關(guān)被認為是當(dāng)前行業(yè)的關(guān)鍵共性技術(shù),這些技術(shù)的突破是推動具身智能產(chǎn)業(yè)發(fā)展的關(guān)鍵動力。
“從當(dāng)前‘大腦’‘小腦’和‘身體’三大技術(shù)的發(fā)展水平來看,‘大腦’的進展是顯著的。”巨深智能科技董事長、科大訊飛前高級副總裁杜蘭向《中國報道》記者分析道,從2022年ChatGPT的橫空出世到如今的DeepSeek,大語言模型的飛速發(fā)展為具身智能注入了全新動力,推動著機器人從傳統(tǒng)的規(guī)則控制模式向自主學(xué)習(xí)模式轉(zhuǎn)變。
杜蘭進一步指出,大模型對世界理解不斷加深的同時,也間接推動了“小腦”技術(shù)的進化,也就是機器人運動控制系統(tǒng)的進步。當(dāng)前,通過引入機器學(xué)習(xí)技術(shù)后,運動控制系統(tǒng)能實時分析環(huán)境并自動調(diào)整參數(shù)。現(xiàn)在的機器人已經(jīng)能夠更加精準(zhǔn)地感知、采集和理解周圍的環(huán)境信息,實時構(gòu)建更高精度的空間模型。
聰明的大腦還要搭配發(fā)達的四肢?;谥袊I(yè)制造和產(chǎn)業(yè)鏈優(yōu)勢,在核心零部件以及材料方面的本體技術(shù)更是發(fā)展迅速。北京工業(yè)大學(xué)教授、北京智同精密傳動科技有限責(zé)任公司首席科學(xué)家張躍明告訴《中國報道》記者:“減速機是連接機器人動力源和執(zhí)行機構(gòu)的中間裝置,相當(dāng)于人體的‘關(guān)節(jié)’,主要用于幫助機器人完成高精度的控制動作。以RV減速機為例,原先這部分基本被日本壟斷,但如今我們已經(jīng)能夠基本實現(xiàn)國產(chǎn)化。不管是內(nèi)部齒輪的精度和組合的創(chuàng)新設(shè)計,還是耐用性上都有了提升。”
受訪專家們紛紛表示,整體來看,中國的具身智能機器人無論是在技術(shù)還是產(chǎn)業(yè)方面都正走在世界前列。
“大小腦”智能化水平不足是主要瓶頸
僅僅3年時間,ChatGPT已迭代至4.0版本;而DeepSeek上線一個月便成為全球用戶增速最快的AI應(yīng)用。盡管AI技術(shù)突飛猛進,但具身智能機器人并未迎來屬于它的“iPhone”時刻。
“即便現(xiàn)在將最聰明的大模型裝入機器人的大腦,它仍難以適應(yīng)復(fù)雜多變的環(huán)境,無法立即解決現(xiàn)實中的實際問題。”杜蘭說,具身智能機器人“大小腦”智能化水平不足是當(dāng)前技術(shù)發(fā)展進程中面臨的主要瓶頸。
“近年來,大模型雖進展迅速,但其本質(zhì)仍是‘語言’層面的智能,與‘世界的語言’有本質(zhì)區(qū)別。具身智能機器人需要的是世界模型,其不僅包含語言知識,還須具備空間感知能力、交互能力以及在復(fù)雜環(huán)境中的推理能力。”快思慢想研究院院長、原商湯智能產(chǎn)業(yè)研究院創(chuàng)始院長田豐告訴《中國報道》記者,任何一方面能力出現(xiàn)短板都會限制具身智能機器人的發(fā)展。
人類對于機器人的期待從不止于能跑、能跳、炒菜做飯等,問題并非出在能不能上,而在好不好上。干活不夠迅速、不夠敏捷、不夠靈活才是普遍問題。
“人能夠自如控制身體,得益于四肢和軀干的標(biāo)準(zhǔn)化結(jié)構(gòu)。然而,具身智能機器人形態(tài)多樣,包括兩足人形、四足、六足以及輪式機器人,本質(zhì)上它們屬于非標(biāo)準(zhǔn)化結(jié)構(gòu),這就對機器人的運動控制系統(tǒng)提出了更高要求。”田豐指出,這需要機器人在物理世界中進行大量測試,尤其是在工業(yè)、農(nóng)業(yè)、服務(wù)業(yè)等實際場景中的不斷驗證。高質(zhì)量數(shù)據(jù)與專業(yè)場景的匱乏是具身智能機器人不夠聰明的核心痛點。
未形成標(biāo)準(zhǔn)化模塊則是具身智能機器人在硬件層面的一大技術(shù)難題。田豐告訴記者,具身智能機器人領(lǐng)域還未實現(xiàn)硬件的標(biāo)準(zhǔn)化和通用化。就硬件設(shè)計來看,仍缺乏統(tǒng)一的模塊體系,不同廠家的產(chǎn)品之間未能形成類似手機或PC的標(biāo)準(zhǔn)化生態(tài),盡管已有部分模塊化嘗試,但這些模塊多為非標(biāo)準(zhǔn)化設(shè)計。
如今,中央廚房機器人、工業(yè)重型機器人和家庭機器人等不同類型的機器人,其硬件模塊之間仍無法通用。此外,行業(yè)內(nèi)也尚未找到最優(yōu)的硬件架構(gòu)標(biāo)準(zhǔn)。
張躍明認為,以人形機器人為代表的具身智能機器人本體制造上也存在剛性過大、能量利用率低等問題,與人類運動相比有較大差距。此外,由于應(yīng)用場景有限、需求不明確,人形機器人模型數(shù)量少,結(jié)構(gòu)創(chuàng)新也明顯不足。
“實際上,具身智能還沒有邁過通用智能的門檻,具身智能機器人也面臨同樣的問題。未來,在標(biāo)準(zhǔn)化基礎(chǔ)上允許微創(chuàng)新,同時確保整體設(shè)計的通用性和泛化性,將是機器人硬件發(fā)展的重要方向。”田豐補充道。
機器人“修煉秘籍”:高質(zhì)量數(shù)據(jù)集
位于國創(chuàng)中心三層和四層的采集場內(nèi),一位工程師正通過操作機械臂在虛擬環(huán)境中模擬機器人抓取物品的動作,以此來捕捉機器人每個關(guān)節(jié)用力時傳感器的角度、速度、角速度等動作數(shù)據(jù)。另一位工程師則正通過遠程遙控設(shè)備指導(dǎo)機器人進行真機訓(xùn)練,完成相應(yīng)動作的學(xué)習(xí)和數(shù)據(jù)抓取。
“這里就像一個‘學(xué)校’,具身智能機器人在不同場景中‘上課’,通過學(xué)習(xí)告訴機器人怎樣做是對的,怎么做會更好,在實踐中鍛煉機器人的各項技能。”魏嘉星說。
魏嘉星認為,機器人想要變得智能,離不開持續(xù)學(xué)習(xí)與訓(xùn)練。在人類為主體的結(jié)構(gòu)性社會中,存在眾多場景和角色,要求機器人至少掌握一定比例的特定技能,并具備一定的泛化能力才能全面勝任各種任務(wù)。
自動駕駛技術(shù)的快速發(fā)展,也正是得益于車廠、自動駕駛公司以及實際道路上海量的測試數(shù)據(jù)積累。工業(yè)機器人也已廣泛應(yīng)用于工廠,如機械臂、四足機器人等,它們在專業(yè)場景中積累了豐富的數(shù)據(jù),為智能化奠定了基礎(chǔ)。
獲取高質(zhì)量和多樣化的智能體與復(fù)雜物理空間進行交互的數(shù)據(jù)集,尤其是真實物理世界數(shù)據(jù),對提升具身智能機器人的泛化能力和通用性,實現(xiàn)機器人在全場景下的靈活應(yīng)對至關(guān)重要。
據(jù)介紹,國創(chuàng)中心數(shù)據(jù)采集場為機器人搭建了工業(yè)、家庭、高危巡檢、辦公及零售等多種應(yīng)用場景。這些場景伴隨著多樣化的任務(wù)需求,例如打掃衛(wèi)生(如掃地、洗碗、倒茶)和物料分揀等。此外,采集場內(nèi)還采用了包括單臂機器人、雙臂機器人、人形機器人等多種形態(tài)的機器人本體進行數(shù)據(jù)采集,以滿足不同機器人在不同場景下的特定任務(wù)要求。
當(dāng)前,國創(chuàng)中心數(shù)據(jù)采集涵蓋6類本體七大典型場景,日產(chǎn)數(shù)據(jù)已達10TB。“國創(chuàng)中心不僅自主進行數(shù)據(jù)采集,還引領(lǐng)整個行業(yè)制定相關(guān)標(biāo)準(zhǔn),明確哪些數(shù)據(jù)是高質(zhì)量、可用且適合行業(yè)發(fā)展的。搭建起生態(tài),讓大家真正把數(shù)據(jù)用起來。此外,我們在不斷攻克關(guān)鍵共性技術(shù)問題的同時,也在不斷深入研究各個細分領(lǐng)域進行場景落地的探索示范。”魏嘉星說。
據(jù)了解,去年年底,全球首個基于全域真實場景、全能硬件平臺、全程質(zhì)量把控的百萬真機數(shù)據(jù)集開源項目 AgiBot World 發(fā)布。參與這一數(shù)據(jù)集項目的香港大學(xué)助理教授李弘揚在接受媒體采訪時提到,“我們還希望通過數(shù)據(jù)集推動硬件形態(tài)逐步收斂,并將其應(yīng)用于靈巧手、視觸覺系統(tǒng)以及輪式機器人上”。
李弘揚認為,具身智能的終極發(fā)展方向在材料科學(xué)。這不僅關(guān)乎視觸覺等傳感器在穩(wěn)定性和可靠性的提升,還涉及下一代硬件的研發(fā)與設(shè)計階段,要求對各類傳感器形態(tài)進行前瞻性的考量與規(guī)劃。硬件的創(chuàng)新將帶來全新的應(yīng)用場景,這些場景能夠進一步賦能機器人技術(shù)發(fā)展。
近期,中國科學(xué)技術(shù)大學(xué)研發(fā)了一款類似章魚觸手的新型螺旋軟體機器人,該機器人依據(jù)多種生物柔性肢體(如章魚觸手)的原理設(shè)計而成,具備小到足以抓取螞蟻、大到提起水桶的多功能性。在多尺度、多材質(zhì)、多維度和協(xié)作交互等拓展應(yīng)用場景中,這些創(chuàng)新的柔性機械構(gòu)造以及先進的驅(qū)動技術(shù),極大地增強了機器人在應(yīng)對復(fù)雜作業(yè)場景時的靈活表現(xiàn)與安全性能。
“只有軟硬件協(xié)同進化,具身智能行業(yè)才能真正取得突破性進展。”李弘揚說。
