摘要:近年來,雖然自然語言處理、計算機視覺、多模態學習等領域的基座模型取得了突破性的進展,展現出了通用人工智能的潛力,但它們在因果推理和物理常識理解方面的表現遠不及人類或動物。這是因為這些模型主要依賴于大量的數據和計算能力,缺乏與現實世界的直接互動和經驗積累。許多研究者開始質疑,單純通過增加模型規模是否足以克服這些根本性的問題。這促使學界重新審視智能的本質,認為智能不僅是計算能力的提升,更是源于與環境的互動。具身智能正逐漸受到人工智能領域的關注,因為它強調智能體通過與物理世界的直接互動,學習和適應環境,展現出更接近生物智能的特性。結合基座模型的技術背景,對具身人工智能進行全面的調研。討論當前具身智能體背后的技術思想、測試基準及應用。對未來具身人工智能的趨勢和挑戰進行前瞻性的分析。
">時間:
引言
早在 1950 年,人工智能之父阿蘭・圖靈指出人工智能的發展存在著 2 條技術路線,分別被后人稱作 “無身的” 和 “具身的” 智能。縱觀人工智能的發展史,無身智能(如自然語言處理、計算機視覺)占據了主導地位,這是因為開發無身智能相對容易,無須構建復雜的物理身體。
近年來,無身的基座模型在自然語言處理和計算機視覺領域取得了顯著成就,引發了學術界和產業界的廣泛關注。基座模型能夠涌現出執行訓練時未見過的任務的能力,這種能力被廣泛認為是通用人工智能的重要標志?,F在出現了一種趨勢:完成特定任務的最有效的方式是遷移通用模型,而非訓練定制模型。
盡管基座模型涌現出了通用人工智能的火花,但越來越多的證據表明,它們在因果推理及物理世界的常識方面的表現遠低于智能生物的水平。當前的智能其實是 “互聯網智能”,缺少物理世界的生活經驗,而真正的智能需要與物理世界互動,將自身的知識與物理世界建立起聯系。這是圖靈提出的人工智能的另一個方向,現在被稱作具身智能。它在圖靈的時代是難以實現的,但隨著基座模型的出現和傳感器與執行器的進步,發展具身智能的時機已經成熟。
本文聚焦于基座模型技術背景下的具身智能體,即具身的基座模型。這類模型也被稱為基座智能體,它們能夠利用基座模型技術思想帶來的通用任務泛化能力,具身地參與到現實世界中,學習物理世界的經驗,而不是簡單地將無身的基座模型部署到有物理身體的機器上。與無身智能相比,具身智能體存在數據資源匱乏、仿真環境到現實環境的遷移難題、多具身通用性要求以及輕量級部署等諸多方面的挑戰。
1 基座模型及具身認知概述
1.1 基座模型
Bommasani 等引入 “基座模型” 這一術語,以標識機器學習領域的一次范式轉變。這類模型指的是通用的、大規模的預訓練模型,它們通?;?Transformer 架構,通過自監督學習的方法進行預訓練。Transformer 架構具有規模化定律,即模型可以增大至極大的規模,性能仍有增長。自監督學習通過定義輸入的一部分為預測目標,利用海量的未標注數據訓練出模型強大的表征能力。這些通過自監督學習訓練出的大型模型能夠適用于各種任務,特別是能夠泛化到訓練時未見的任務,在自然語言處理、計算機視覺、多模態學習等多個領域取得了成功。
基座模型是在自然語言處理領域出現的,以 BERT 和 GPT 為代表。BERT 采用遮罩自編碼的方式,GPT 以自回歸的方式預測輸入序列中的下一個詞元。利用這 2 種方式訓練出來的模型在自然語言處理領域實現了突破,激發了大型語言模型的研究熱潮。
受到自然語言處理成功的啟發,大規模樣本預訓練的思想已擴展到計算機視覺領域。對比學習和視覺 Transformer 的結合,使得多模態的視覺 - 語言模型得以出現。最近,多模態模型發展到了百億級別的參數規模,推動了視覺基座模型的成功。到目前為止,討論的基座模型都是無身的模型。將基座模型的范式擴展到具身智能領域是自然而富有挑戰性的任務。
1.2 具身認知
具身智能中的 “具身” 源于認知科學的具身認知領域,它認為智能是在與環境的感知運動的行動中顯現出來的。具身認知領域同樣關注語言和視覺的理解。
長期以來,機器能否真正理解人類語言一直是熱門的討論話題。圖靈提出模仿游戲(即圖靈測試),Searle 通過 “中文房間論證” 挑戰了機器理解語言的假設,Harnad 提出符號落地問題,Bender 等設計章魚測試的思想實驗,這些都表明語言的意義不能完全脫離現實世界,語言模型要實現真正的情境語言理解,需要具備物理世界和社會背景的知識。
具身認知的另一個研究方向是視覺系統。早期對幼貓的實驗表明,運動對于幼貓的視覺感知的發育至關重要。Gibson 進一步提出,視覺是一個具身的過程,與個體在環境中的互動密切相關。
實際上,具身認知科學在廣泛的意義上研究行為和心智之間的關系,許多實驗已經證明,認知可以受到身體的影響,抽象的認知狀態是基于身體狀態的。這一理念啟發了一部分人工智能科學家們長期致力于具身人工智能。最近,隨著基座模型的出現和現代傳感器及執行器的成熟,具身方向的研究工作重新被人們重視,經典的圖靈測試的概念甚至被擴展到所謂的具身圖靈測試。
2 具身智能體的技術路線
2.1 問題定義
具身智能的問題通常被定義為具有本體感知狀態的決策問題,本體感知狀態表示智能體身體部位的位置和方向。具身智能體在時間步的函數表示為at+1,st+1=P(at−T→t,st−T→t,o
t−T→t,xt−T→t)。輔助信息xt−T→t是可選的,它可以是獎勵、目標或任何組合的輔助信息,幫助智能體做出決策。令 x 為獎勵 r,則強化學習的具身智能體的函數為at+1,st+1=P(a
t−T→t,st−T→t,ot−T→t,rt−T→t)。
若ot−T→t被定義為視覺觀察vt−T→t,且xt−T→t作為語言指令lt−T→t,則視覺 - 語言多模態智能體的函數可以表示為at+1,st+1=P(at−T→t,st−T→t,vt−T→t,lt−T→t)。若 s 不表示具身的本體狀態信息,而是無身的狀態信息,則該智能體退化成傳統的強化學習的無身智能體。
2.2 適用于智能體的 Transformer 架構
Transformer 架構已成為現代人工智能研究的核心架構。它能夠捕捉長距離的依賴關系,利用硬件的并行處理能力擴展到極大的模型規模,還能作為跨不同模態的統一編碼器。
決策 Transformer 和軌跡 Transformer 將強化學習問題視作序列建模問題,把軌跡視為狀態、行動和獎勵的序列,輸入到 Transformer 中。決策 Transformer 的核心思想是將傳統的強化學習問題轉變為監督學習問題,獎勵信號是可選的,根據這一架構訓練出來的智能體既可以是傳統意義上的強化學習智能體,也可以是不依賴于獎勵信號的非強化學習智能體。決策 Transformer 可以以自回歸或遮罩自編碼的方式預訓練。
2.3 自監督預訓練
現代人工智能經歷了從監督預訓練向自監督預訓練的范式轉變。自監督預訓練能夠利用大量的未標注數據來學習具有通用性的表示,可廣泛應用于眾多的下游任務,并在這些任務上取得先進的性能。例如,語言模型可以通過自回歸或遮罩自編碼的方式進行預訓練。
受到自回歸的大型預訓練語言模型的啟發,Reid 等提出以自回歸的方式預訓練決策 Transformer。Gato 將決策 Transformer 擴展到通用的具身智能體,RoboCat 將 Gato 擴展為機器人操控的基座智能體。一些其他的具身智能體將大型語言模型適配到具身模型,如 PaLM-E、RT-2。
另一種自監督具身智能體采用遮罩自編碼的方式,如 MVP 系列工作、SMART、MaskDP、Voltron、RPT。此外,許多具身智能體的工作沒有從頭做預訓練,而是利用外部預訓練好的模型。
2.4 多模態學習
多模態學習通過結合不同模態的數據,如文本、圖像、本體感知狀態和動作,提供了豐富的信息處理方式。具身智能的研究本質上與多模態學習緊密相關,Transformer 能夠作為不同模態的統一編碼空間,為多模態學習開啟新的可能性。具身智能體的多模態學習在表示學習的預訓練階段及任務遷移的微調階段均被廣泛采用。
多模態最常見的形態是將視覺和語言的模態連接起來,如 ViLBERT、UNITER 和 Oscar 等視覺 - 語言模型,以及 CLIP、ALIGN 和 BASIC 等通過擴大模型規模和數據量學習視覺表征的模型。這些視覺 - 語言多模態模型可以應用于視覺語言的具身智能體。
除了視覺和語言,多模態學習的概念還可以擴展到動作和本體感知狀態等其他模態,如 Gato、RPT、RoboCat。
2.5 強化學習與模仿學習
具身智能體傳統上是通過強化學習的方式進行訓練,智能體通過與環境的互動來學習,包括基于當前狀態采取行動,接收獎勵反饋,更新決策策略。但傳統強化學習存在樣本效率低下、學習過程緩慢、為一些任務帶來安全問題等缺點。
為了解決這些問題,模仿學習被提出作為訓練智能體的方法。在模仿學習中,智能體通過觀察專家的行為來學習,之后可能通過強化學習進行進一步的微調。近年來,模仿學習在具身智能體的訓練中越來越受到關注,出現了針對具身智能體的大規模數據集。
2.6 模型即服務
在某些場景下,通過互聯網服務來實現基座智能體變得可行。模型即服務作為創新的范式,極大地促進了基座模型的開發和部署。在模型即服務的范式下,成熟的無身基座模型可以部署到具身智能體。
研究發現,大型語言模型能夠有效地將用自然語言表達的高級任務分解成一系列低級動作,無須額外訓練。例如 LM-Nav 直接利用 GPT-3 在現實世界中導航,NavGPT 展示了在視覺語言導航任務中利用 GPT-3.5 和 GPT-4 進行零樣本的動作預測,PaLM-E 整合了 PaLM 和 Vision Transformer,以執行多種具身推理任務。這些智能體的運作都需要連接到互聯網,以便訪問這些外部的大型模型。
3 數據集與模擬器
3.1 數據集
盡管基座模型的特點是利用未標記數據,但它們需要大量的標記數據來執行下游任務。實際上,基座智能體需要更大規模的標記數據來滿足執行多任務和部署在多具身上的需求。
在監督學習時代,數據集是模型成功的關鍵。進入基座模型的時代,自監督預訓練展現出優異的表征能力,但預訓練的模型仍需要依賴特定任務的數據集進行微調。
早年的機器人學習方法通常專注于執行特定的任務,需要對應的特定數據集。在基座智能體的背景下,數據集往往涵蓋多個任務、多個場景,甚至多種具身形式,在這些大規模數據集上訓練的高容量模型展現了更好的泛化能力。
3.2 模擬器
近年來,許多適用于具身智能的新模擬器被開發出來。模擬器可以為智能體提供既安全又高效的學習環境,用于生成大量數據,還常用作基準測試,評估和比較不同方法的效果。
模擬器中使用的數據既可以是合成的,也可以是基于現實世界掃描得到的。雖然在模擬器中訓練得到的模型能夠在模擬環境下表現良好,但模擬環境與現實世界之間存在的明顯差異是其在物理機器人上應用的主要障礙。一些具身方法同時在模擬和現實世界,或完全在現實世界中評估模型的表現。此外,一系列研究專注于模擬到現實的遷移,但目前主要集中在有限的場景中,對于面向多任務、多場景甚至多具身的基座智能體的遷移,仍然有巨大挑戰。
4 具身智能體的應用
一般而言,具身智能體被設計為能夠朝任何目標移動,并與之互動以完成各種任務。重點關注視覺導航和機器人操控這 2 個引起了廣泛研究興趣的應用。在基座智能體的框架下,這 2 個應用都強調了任務泛化的重要性。此外,視覺導航注重于場景的泛化能力,機器人操控側重于具身形態的泛化。
4.1 視覺導航
視覺導航賦予智能體在未知環境中利用視覺信息到達指定目的地的能力。實現視覺導航的方法有很多種,討論 2 項典型的任務:目標導航和視覺語言導航,以及在通用視覺導航領域中的基座智能體。
目標導航的目標是指引智能體前往目標物體所在地。基座模型的應用使得對目標導航的零樣本遷移成為可能,如 EmbCLIP、CoW、ZSON、LFG、DDN、PixNav 等智能體在目標導航任務中都有不同的表現和探索。
視覺語言導航是指智能體依據自然語言指令進行導航。隨著大型語言模型的出現,將它們應用到視覺語言導航成為研究的新趨勢,如 PreSS、VLN - BERT、Airbert 等采用不同方法提升視覺語言導航性能,同時也面臨人類指令數據稀缺等問題,MARVAL、LM-Nav、NavGPT、DiscussNav 等在探索解決方法。
面對多樣化的視覺導航任務和特定任務的解決方案,研究者們努力構建能夠應對多項導航任務的統一智能體,如 Vienna 和 ViNT,它們在通用視覺導航任務中展現出良好性能。
4.2 機器人操控
機器人操控涉及機器人與環境中的對象相互作用的能力,是機器人學中的核心任務。在基座智能體的技術背景下,機器人操控的方法可以分為視覺 - 語言方法和純視覺方法。越來越多的方法不僅在仿真環境中評估模型性能,還直接在真實物理世界中進行測試,同時具身智能體呈現出面向多具身發展的趨勢。
SayCan、R3M、Gato、RT-1、PaLM-E、RT-2 等采用視覺 - 語言方法,通過將語言模型與現實世界連接、結合多模態學習等方式實現機器人操控。MVP、Real MVP、MaskDP、RPT、RoboCat、Yang 等則通過自監督預訓練、遮罩自編碼等純視覺方法在機器人操控領域取得進展。
5 趨勢與挑戰
目前,具身智能體的數據采集尚處于起步階段,許多具身任務缺乏足夠的可訓練數據集。具身智能體需要在物理世界中采集數據,增大了數據采集的難度和成本,具身形態和任務場景的多樣性進一步加劇了該問題。為了推動具身智能體的發展,迫切需要構建更大規模、更多樣化的具身數據集,提高具身數據集的采集效率,降低采集成本。
仿真環境與現實世界之間存在定義域鴻溝,這是在模型器中訓練的模型部署到物理機器人上的主要障礙。在基座模型時代,模型往往在眾多場景中預訓練,增大了從模擬器到現實世界遷移的復雜程度。由于基座智能體的任務、場景及物理形態眾多,導致評估協議實現繁復,比較不同的真實世界方法是一個挑戰。
基座智能體正變得越來越具有通用性,能夠執行多種任務,在不同環境中采取行動,甚至適應多種具身形態。增加智能體的規模是提升性能的直接方式,但這一做法面臨著成本高昂和邊際效益遞減的問題。需要尋找其他策略,避免單個智能體規模過大。
大規模智能體雖然能夠展現出良好的性能,但不適合在邊緣設備上部署,輕量級部署成為基座智能體面臨的一大挑戰。目前還不清楚大型語言模型的能力在何種規模下會涌現,需要在智能體的復雜性與性能之間找到平衡點。
6 結語
本文回顧了基座模型和具身認知的發展,梳理了實現具身智能的最新技術進展及相關的數據集與模擬器,分析基座智能體在機器人操縱和導航方面的應用。具身智能的研究體現了人工智能從純計算轉向與物理環境交互的趨勢。具身智能體在任務泛化、仿真環境到現實環境的遷移、多具身適應及輕量級部署方面面臨諸多挑戰,但其發展展現了廣闊的應用前景。未來,隨著技術的不斷進步,具身智能體有望在更多領域發揮重要的作用,推動通用人工智能的發展。
李頌元;朱祥維;李璽,中山大學電子與通信工程學院;浙江大學計算機科學與技術學院,202502