“算力霸主”英偉達(dá)(NVIDIA)創(chuàng)始人兼CEO黃仁勛在ITF World 2023半導(dǎo)體大會上稱,“具身智能”將引領(lǐng)下一波人工智能浪潮,引發(fā)了全球范圍內(nèi)對“具身智能”的關(guān)注。
具身智能的思想萌芽于人工智能誕生之初。1950年, 圖靈在其為人工智能奠基、提出圖靈測試的經(jīng)典論文《Computing Machinery and Intelligence》的結(jié)尾展望了人工智能可能的兩條發(fā)展道路[1]:“We may hope that machines will eventually compete with men in all purely intellectual fields. But which are the best ones to start with? Even this is a difficult decision. Many people think that a very abstract activity, like the playing of chess would be best. It can also be maintained that it is best to provide the machine with the best sense organs that money can buy, and then teach it to understand and speak English. This process could follow the normal teaching of a child. Things would be pointed out and named, etc[2].”他提出一條路徑是聚焦抽象計(jì)算(比如下棋)所需的智能,另一條路則是為機(jī)器配備最好的傳感器、使其可以與人類交流、像嬰兒一樣地進(jìn)行學(xué)習(xí)。這兩條道路便逐漸演變成了非具身和具身智能。
2023年5月份以來,學(xué)術(shù)界以李飛飛、姚期智、盧策吾、李德毅、鄭南寧等專家學(xué)者為代表,相繼發(fā)布“具身智能”相關(guān)的學(xué)術(shù)論文和演講。產(chǎn)業(yè)界以谷歌、特斯拉、英偉達(dá)、META、阿里、小米等巨頭公司為代表,積極跟進(jìn)相關(guān)產(chǎn)品和技術(shù)布局。
以ChatGPT4為代表的各類大模型出現(xiàn),人形機(jī)器人的再次走紅,關(guān)于所謂的“具身智能”新進(jìn)展井噴式涌現(xiàn),在各領(lǐng)域中展現(xiàn)出的巨大吸引力,是否代表著人工智能的關(guān)鍵問題已經(jīng)解決?現(xiàn)有的方法是否正確?我們需冷靜下來,回歸到最基礎(chǔ)的定義和內(nèi)涵上面,思考/厘清什么是“具身智能”?
一、“具身智能”不是什么?
當(dāng)前,有以下幾種關(guān)于“具身智能”的典型觀點(diǎn)。
觀點(diǎn)1:AI(大模型)+軀體(機(jī)器人)=具身智能?
“具身智能”是指能理解、推理、并與物理世界互動(dòng)的智能系統(tǒng)。[3]
該觀點(diǎn)認(rèn)為“具身智能”是一種智能系統(tǒng),具有理解、推理并與物理世界互動(dòng)的功能。通常將大模型搭載在物理軀體(如機(jī)器人)上來實(shí)現(xiàn),讓大模型充當(dāng)機(jī)器人的“大腦”,或者說給大模型“穿上機(jī)器人外衣”,將圖像、文字等數(shù)據(jù)輸入大模型進(jìn)行聯(lián)合訓(xùn)練,通過與世界交互的反饋結(jié)果,指導(dǎo)人為手工標(biāo)注,以提高模型的泛化能力。
在LLM(大語言模型)、VLM(視覺-語言模型)、VNM(視覺導(dǎo)航模型)的加持下,人類用自然語言給機(jī)器人下達(dá)指令,可以看到語言指令對應(yīng)任務(wù)的效果展示。但在執(zhí)行精度要求較高的任務(wù)時(shí),需依賴于人工參與校正,即通過人輸入偏離的指令來校正機(jī)械臂,這說明該類“智能”系統(tǒng)對空間對象沒有精細(xì)辨識能力,沒有測量功能,不具備系統(tǒng)依據(jù)感測結(jié)果與基準(zhǔn)信息的比較,也就無法做出自適應(yīng)決策與規(guī)劃的智能特性,即系統(tǒng)不具備一般問題求解和響應(yīng)的能力。
相關(guān)資料展示出機(jī)器人智能系統(tǒng)“與物理世界的互動(dòng)”,但互動(dòng)過程顯示,機(jī)器人感知對象所指“語義”是由人工標(biāo)注實(shí)現(xiàn)的點(diǎn)云“視覺”信息集合,機(jī)器人大腦沒有關(guān)于對象邊界(虛-實(shí)交界)的有效度量信息,說明“它”沒有理解物理對象,只是機(jī)械的執(zhí)行人的語言指令做出一個(gè)動(dòng)作進(jìn)行響應(yīng)。大模型是基于海量數(shù)據(jù)、在人類參與注入先驗(yàn)知識基礎(chǔ)上訓(xùn)練出來的符號相關(guān)性網(wǎng)絡(luò)(概率映射),無法實(shí)現(xiàn)物理世界中語義的“理解”。借用具身認(rèn)知中“與環(huán)境交互”思想,簡單的將大模型與機(jī)器人的結(jié)合來定義/理解具身智能是不能令人信服的。
觀點(diǎn)2:人形機(jī)器人=具身智能?
“具身智能”是指身體并支持物理交互的智能體。[4]
人形機(jī)器人是具身通用人工智能最理想的身體形式。
該觀點(diǎn)認(rèn)為“具身智能”是指擁有身體的智能體,通常會讓人誤認(rèn)為人形機(jī)器人就是“具身智能”(這個(gè)表述本身有語法錯(cuò)誤)。馬斯克推出的人形機(jī)器人Optimus(擎天柱)是典型代表,最新進(jìn)展顯示其可以拿捏物品、緩慢走路等,運(yùn)動(dòng)控制能力持續(xù)進(jìn)化。Optimus(大概率)復(fù)用特斯拉FSD自動(dòng)駕駛及神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)技術(shù),通過傳感器(相機(jī)、激光雷達(dá))收集數(shù)據(jù),大規(guī)模數(shù)據(jù)集對模型訓(xùn)練實(shí)現(xiàn)識別,“智能”的實(shí)現(xiàn)路徑與觀點(diǎn)1中大模型路徑一致,瓶頸均在于用數(shù)據(jù)訓(xùn)練“刷”出來的輸出結(jié)果無法有效映射物理對象,在數(shù)據(jù)匱乏領(lǐng)域是無法應(yīng)用的。
該觀點(diǎn)著重強(qiáng)調(diào)“身體”,意在區(qū)別于符號主義主張智能是基于邏輯規(guī)則的符號操作運(yùn)算,以及區(qū)別于連接主義主張智能是腦神經(jīng)元構(gòu)成的信息處理。人形機(jī)器人是未來泛通用機(jī)器人的最佳產(chǎn)品形態(tài),但“具身智能”的主體形式不必要限制在外觀上的“人形”,根據(jù)使用用途和場景的不同,可以有多種形態(tài)。僅有人的外觀,沒有實(shí)現(xiàn)智能本質(zhì)突破的人形機(jī)器人沒有靈魂。將具有身體的智能定義為“具身智能”是不正確的,也不能以身體的形式作為判斷是否屬于“具身智能”的依據(jù)。
觀點(diǎn)3:盧策吾教授:“具身智能”是指一種基于物理身體進(jìn)行感知和行動(dòng)的智能系統(tǒng), 其通過智能體與環(huán)境的交互獲取信息、理解問題、做出決策并實(shí)現(xiàn)行動(dòng), 從而產(chǎn)生智能行為和適應(yīng)性。 [1]
該觀點(diǎn)認(rèn)為具身智能擁有支持感知和運(yùn)動(dòng)的物理身體,可以進(jìn)行主動(dòng)式感知,也可以執(zhí)行物理任務(wù)。[5]
該觀點(diǎn)從具身性視角將智能體與環(huán)境融合在一起,強(qiáng)調(diào)“感知-行動(dòng)回路”的重要性,即感受世界—對世界進(jìn)行建模—進(jìn)而采取行動(dòng)—進(jìn)行驗(yàn)證并調(diào)整模型的過程,關(guān)注身體與環(huán)境之間的互動(dòng)在智能行為的產(chǎn)生和適應(yīng)性提升中發(fā)揮的重要作用。
盧教授給出的“具身智能”的定義具有一定的借鑒意義,但仍然將“具身智能”歸結(jié)為一種智能系統(tǒng)。
二、“具身智能”是什么?
(1)認(rèn)識論源頭:“具身智能”是以具身認(rèn)知為指導(dǎo)的人工智能,體現(xiàn)哲學(xué)一元認(rèn)識論思想。
具身認(rèn)知屬于哲學(xué)和認(rèn)知心理學(xué)的概念,是指人的認(rèn)知和智力活動(dòng)不是大腦的孤立計(jì)算,而是大腦、身體(通過感覺器官)及環(huán)境自適應(yīng)交互作用的產(chǎn)物。
(2)生物智能的基礎(chǔ)和漸進(jìn)性:參考生物智能的本質(zhì),活體生物的細(xì)胞、器官或組織、單體生物均有不同層級智能,生物智能是“肉身”物質(zhì)構(gòu)造的機(jī)能。
活體生物的細(xì)胞本身是信息感知和處理器官,通過代謝過程實(shí)現(xiàn)物質(zhì)、能量與信息的轉(zhuǎn)換,完成生存、繁衍等一系列智能的表現(xiàn),這構(gòu)建了最低層次的智能(本能性的)。
進(jìn)化到器官或組織的智能,高等動(dòng)物的感覺器官(視覺、聽覺、觸覺等)發(fā)育的關(guān)鍵階段需要自主肢體運(yùn)動(dòng)配合,形成具有部分認(rèn)知功能的智能。
進(jìn)化到更高級的人整體的智能,活動(dòng)環(huán)境的擴(kuò)大和復(fù)雜化,對記憶和判斷、決策的要求推動(dòng)大腦的形成和進(jìn)化,以神經(jīng)系統(tǒng)為基礎(chǔ)的認(rèn)知功能形成。
從單細(xì)胞的智能→組織和器官的智能→高級物種整體的智能→群智能,是不斷的重組和涌現(xiàn)的過程。進(jìn)化的成果融合在遺傳基因中,強(qiáng)化某些器官或系統(tǒng),影響基因、遺傳變異的來源,提高生物體生存能力。進(jìn)化過程中基于少樣本和低功耗,使得智力達(dá)到更高的高度,利于物種生存和亞系繁榮。
生物智能是“肉身”物質(zhì)構(gòu)造的機(jī)能,強(qiáng)調(diào)智能信息處理依賴物質(zhì)構(gòu)造,物質(zhì)載體不可或缺。
(3)我們關(guān)于“具身智能”的定義
“具身智能”是指主體(機(jī)器)在自體、對象與環(huán)境等要素間相互作用(信息感知、轉(zhuǎn)化和響應(yīng))的過程中建構(gòu)符合各要素物理實(shí)存及其關(guān)系演化趨勢的認(rèn)知模型,達(dá)成問題解決或價(jià)值實(shí)現(xiàn)的人工智能方法。
具身智能是一種人工智能方法,強(qiáng)調(diào)智能主體在處理信息時(shí)要將關(guān)注的對象、環(huán)境以及自體均要納入信息處理范圍中。
具身智能的方法是分級的嵌套的,(類比于細(xì)胞)最基礎(chǔ)層單元的自體物理構(gòu)造與所需處理的智能任務(wù)的信息模型在數(shù)學(xué)上是同構(gòu)的。例如細(xì)胞實(shí)現(xiàn)最低層級的智能是一個(gè)循環(huán)圖、器官和組織的智能再到生物整體的智能都表現(xiàn)為循環(huán)分級嵌套模型。這種類似于分形理論的循環(huán)嵌套模型,將低層級的信息做壓縮和抽象,這樣高層級的智能循環(huán)不至于太復(fù)雜。
具身智能在認(rèn)知與實(shí)踐的矛盾運(yùn)動(dòng)中實(shí)現(xiàn)智能增長。智能增長是指在實(shí)踐過程中整體模型的構(gòu)建和優(yōu)化,智能主體在感知到信息以后,經(jīng)過決策、規(guī)劃,要對外輸出行為,這樣才能夠?qū)崿F(xiàn)循環(huán)的閉環(huán),從而在此過程中實(shí)現(xiàn)智能的增長。
(4)“具身智能”的任務(wù)和使命
作為一種人工智能方法,“具身智能”要解決其他方法、工具難以解決的問題,才能展現(xiàn)其存在價(jià)值和生命力。
1948年,維納出版《人有人的用處》,提出“控制論”概念,1956年DARTMOUTH會議提出人工智能概念至今,人工智能科學(xué)先后發(fā)展出行為主義、符號主義、連接主義等不同的學(xué)派,用于發(fā)展“機(jī)器”智能,解決人類所關(guān)注的各種問題,取得巨大的成功。機(jī)器智能所具備的能力,應(yīng)用于模擬低等生物智能、確定目標(biāo)跟蹤及機(jī)器自動(dòng)控制、圖片識認(rèn)、語音識別與生成、機(jī)器翻譯、視頻轉(zhuǎn)換以及某些專項(xiàng)問題的解決等方面,表現(xiàn)出驚艷的能力。但是,即使大模型、生成式人工智能、人形機(jī)器人掀起全球關(guān)注的今天,我們掌握的人工智能方法仍然處于弱人工智能階段。通往高級的、與人類智能相當(dāng)?shù)娜斯ぶ悄芊椒窂绞鞘裁?這是我們關(guān)注“具身智能”的根本原因,也是“具身智能”的使命。因此,“具身智能”關(guān)鍵任務(wù),在于借鑒具身認(rèn)知的思想,使得機(jī)器在對象識別、工具使用、推理和規(guī)劃、價(jià)值判斷、語言使用等方面基本達(dá)到人類智能的水平。其中,讓機(jī)器“理解”空間,實(shí)現(xiàn)“實(shí)物對象到信息端精細(xì)語義”的映射,是解決上述關(guān)鍵任務(wù)的最基礎(chǔ)的工作。
(5)“具身智能”的關(guān)鍵要素
①重構(gòu)映射:主體對物理實(shí)存進(jìn)行鏡像映射,在信息空間中基于重構(gòu)映射內(nèi)容的交互作用來決策和行動(dòng)。
信息空間的鏡像能力是“智能進(jìn)行度量、評判”的基礎(chǔ)。要對對象進(jìn)行有效的認(rèn)知,最好的方法就是在大腦里構(gòu)建關(guān)于這個(gè)對象的逼真的模型和模型的演化,人類有效把握某個(gè)問題的關(guān)鍵也在于此。例如我們在現(xiàn)代戰(zhàn)爭中可以通過仿真模擬或沙盤模擬推演,在信息層有效映射不同要素和過程變化,使得戰(zhàn)爭指揮更有效、更高明。
重構(gòu)映射中,最基礎(chǔ)的是視覺信息的重構(gòu)。 基于視覺準(zhǔn)確的感知和理解環(huán)境(包括對物體的理解、結(jié)構(gòu)的理解、可操作性的理解),視覺感知與物理實(shí)存交互印證,這是具身智能實(shí)現(xiàn)的基礎(chǔ)。
②認(rèn)知過程的交互建構(gòu):認(rèn)知是在大腦-身體-環(huán)境之間互動(dòng)過程中建構(gòu)或構(gòu)造出來的,涌現(xiàn)概念并強(qiáng)化概念內(nèi)涵,在行動(dòng)中反思-反思中實(shí)踐-實(shí)踐中建構(gòu)的螺旋上升過程。
我們的認(rèn)知過程是大腦、身體、環(huán)境的互動(dòng)中不斷循環(huán)構(gòu)造出來的,是動(dòng)態(tài)的過程。例如戰(zhàn)爭中在無法摸清敵方兵力部署的情況下,采用炮火偵查的方式觀察敵方反應(yīng)。
③通道約束:認(rèn)知受感知通道、信息 [6] 輸出通道能力的約束。
感知通道的約束可以從兩個(gè)例子來理解:一個(gè)是不同傳感器下的觀測結(jié)果不同,如人眼中的月亮以及使用望遠(yuǎn)鏡看到的月亮是不同的;另一個(gè)是在距離過大或信息通道不夠時(shí),信息會退化,如近處的飛機(jī)可以看到詳細(xì)構(gòu)造,隨著飛機(jī)越來越遠(yuǎn),逐漸退化成一個(gè)點(diǎn),直到消失。
信息輸出通道包括動(dòng)作的輸出以及語言的輸出,我們在認(rèn)知形成過程中形成對對象世界改造的目的、計(jì)劃和方式的信息,通達(dá)于實(shí)踐,對世界加以改造[6]——改變物質(zhì)存在的信息狀態(tài)。
三、具身智能是智能科學(xué)發(fā)展的新范式
吳易明研究員在2021年學(xué)術(shù)報(bào)告[7]中提出:具身智能是智能科學(xué)發(fā)展的新范式,強(qiáng)調(diào):
(1)具身智能是對已有人工智能技術(shù)路徑(包括符號主義、行為主義、連接主義)的批判和提升,促進(jìn)智能科學(xué)發(fā)展的升級與進(jìn)步。
( 2)基因 [8] 決定不同生物種屬智能水平的高低,基因編碼本質(zhì)是數(shù)學(xué)性的,研究中引入現(xiàn)代數(shù)學(xué)成果是必要的。
生物的基因?qū)嶋H是一種數(shù)學(xué)編碼,可以完成遺傳信息的表達(dá)與傳遞,由基因、信息生物學(xué)決定的后天發(fā)育過程是可控的,也應(yīng)該是可借助數(shù)學(xué)模型解釋表征的——這需要更為抽象的現(xiàn)代數(shù)學(xué)工具。
(3)細(xì)胞級智能、低等生物、生物無意識行為和響應(yīng),大多服從控制論模型。
不論是生物、社會、包括物種的競爭某種意義上也服從控制論模型,“具身智能”不否定行為主義,是行為主義的延伸與提升。
(4)高級生物(動(dòng)物)神經(jīng)元后天發(fā)育中,自然物理規(guī)律扮演“監(jiān)督”角色。
高等生物體發(fā)育出了大腦和神經(jīng)系統(tǒng),它的發(fā)育是與環(huán)境交互作用的結(jié)果,“學(xué)習(xí)”讓生物體變得更聰明,行為變化會融入后代的基因中。生物主體基于問題求解而反作用于環(huán)境的基本循環(huán),是高層次智能發(fā)生的必要基礎(chǔ)。“具身智能”肯定連接主義的研究,連接主義在一定范圍內(nèi)是有作用的,如何劃定其有效作用的范圍,是科學(xué)家應(yīng)該認(rèn)真對待的課題,我們認(rèn)為,其輸入端信息空間和輸出端信息空間在維度上的關(guān)系,大概是劃定其有效性的關(guān)鍵因素。
(5)接近人類的通用人工智能,最基礎(chǔ)的任務(wù)是實(shí)現(xiàn)對“物理實(shí)存對象空間及運(yùn)動(dòng)屬性的認(rèn)知模型建構(gòu)”。
(6)“語言、符號、邏輯”是人類文明高級階段的特有成果,是“人類”生物肌體映射物理世界成果的溢出和卸載,是構(gòu)建高等級智能主體的基石,人類對其正確運(yùn)用,依賴于有效解決哲學(xué)上的“指稱”問題。
語言、符號和邏輯是人創(chuàng)造出來用于認(rèn)識世界的工具,人實(shí)現(xiàn)了對對象空間屬性的清晰辨識。識別實(shí)現(xiàn)了語義信息空間與實(shí)存對象之間的映射,是智能的基本問題。通用人工智能突破的關(guān)鍵點(diǎn)在于從技術(shù)上解決維特根斯坦提出的“指稱”問題。
四、總結(jié)
“具身智能”的概念是從生物進(jìn)化史、人類文明史、人的成長史的源頭尋找靈感,探究智能的本質(zhì),厘清智能概念[9]的基礎(chǔ)上凝練而成的。
概念辨析處于科學(xué)研究首要地位,為智能科學(xué)技術(shù)突破指引方向?!熬呱碇悄堋笔且I(lǐng)未來智能科學(xué)發(fā)展新的范式。其核心在于視覺智能底層技術(shù)架構(gòu)的突破和應(yīng)用,即解決唯一映射問題?!熬呱碇悄堋睆?qiáng)調(diào)重構(gòu)映射,應(yīng)用在智能機(jī)器人系統(tǒng)中時(shí),視覺智能技術(shù)架構(gòu)的突破使得機(jī)器人將現(xiàn)實(shí)的感知信息“各歸其位”(數(shù)學(xué)語言到物理存在映射的唯一性),實(shí)現(xiàn)真正的擬人化信息處理,是機(jī)器人真正在非結(jié)構(gòu)化環(huán)境中大規(guī)模落地應(yīng)用的關(guān)鍵。這種架構(gòu)最基礎(chǔ)的成分是數(shù)學(xué)的,小樣本的,而非“迷戀”大數(shù)據(jù)集、更高的算力、以及多模態(tài)等路徑。
經(jīng)過八年的艱苦努力,從理論研究到產(chǎn)品應(yīng)用落地,這個(gè)過程詮釋了“建構(gòu)性”方法的運(yùn)用,我們已經(jīng)初步驗(yàn)證了“具身智能”方法的正確性,并且看見和感受到了“具身智能”帶來突破的曙光,也看到更多的科學(xué)家涌入這個(gè)方向。我們只能依賴“人類的智能”以及人類文明的成果來研究智能的本質(zhì),“不識廬山真面目,只緣身在此山中”,這個(gè)緣由決定了研究工作必然充滿艱辛,挑戰(zhàn)諸多,但我們確信“具身智能”將開啟機(jī)器智能的新階段。
關(guān)于西安中科光電
西安中科光電精密工程有限公司成立于2013年,初創(chuàng)階段得到中國科學(xué)院西安光機(jī)所、中科創(chuàng)星強(qiáng)力支持,是典型的硬科技創(chuàng)業(yè)企業(yè)。公司面向智能制造、國防裝備領(lǐng)域,是專業(yè)從事高端智能機(jī)器人產(chǎn)品研發(fā)生產(chǎn)業(yè)務(wù)的高新技術(shù)企業(yè)。公司經(jīng)過持續(xù)八年的攻關(guān)研發(fā),突破了視覺智能底層理論和技術(shù),在2021年提出了以“具身智能”作為智能科學(xué)發(fā)展的新范式,并實(shí)現(xiàn)了自主智能機(jī)器人產(chǎn)品和業(yè)務(wù)應(yīng)用落地。2022年,公司獲得“具身”、“具身智能”商標(biāo)所有權(quán),并開通具身智能公眾號及視頻號、具身智能機(jī)器人公眾號。
公司以具身智能為指導(dǎo),聚焦視覺智能,解決軍工及制造業(yè)中的“精確測量、智能識別、精密控制”問題,為客戶在智能光電探測與精準(zhǔn)識別、視覺導(dǎo)航、視覺智能自主機(jī)器人系統(tǒng)方面的需求提供產(chǎn)品和解決方案。目前已形成三大業(yè)務(wù)板塊:“仝人智能”焊接機(jī)器人、檢測機(jī)器人和特種機(jī)器人以及相關(guān)部件級產(chǎn)品。
相關(guān)稿件