假設(shè)你有一個(gè)末端類似于人手的機(jī)械臂。你已經(jīng)訓(xùn)練它的5個(gè)指頭學(xué)會(huì)拿起一把錘子,以及將釘子釘入木板。但現(xiàn)在,你希望一種“二指夾爪”也能完成同樣的任務(wù)。為此,科學(xué)家創(chuàng)造出了一連串的虛擬機(jī)器人來模擬兩種機(jī)械臂之間的形態(tài):它會(huì)從最初類似于人手的結(jié)構(gòu)緩慢地轉(zhuǎn)變成一種新的形狀。每一個(gè)中間機(jī)器人都會(huì)通過練習(xí)指定的任務(wù),以此調(diào)整對(duì)應(yīng)的人工神經(jīng)網(wǎng)絡(luò)(一種計(jì)算模型),直到達(dá)到閾值成功率。緊接著,這個(gè)系統(tǒng)的控制器代碼就會(huì)被傳遞給這條“鏈”上的下一個(gè)中間機(jī)器人。
為了完成從虛擬機(jī)器人到目標(biāo)機(jī)器人的轉(zhuǎn)變,研究團(tuán)隊(duì)創(chuàng)建出了一種共享式樹狀運(yùn)動(dòng)鏈(kinematic tree)。其中,一組代表肢體部分的節(jié)點(diǎn)被一些代表關(guān)節(jié)的鏈接器(link)連接了起來。為了將錘擊技能遷移到二指夾爪,這支團(tuán)隊(duì)將原本結(jié)構(gòu)中代表三個(gè)指頭的節(jié)點(diǎn)的大小和權(quán)重都調(diào)整為零。對(duì)于每一個(gè)中間機(jī)器人來說,相應(yīng)指頭的大小和權(quán)重就會(huì)逐漸變小。
與此同時(shí),控制它們的神經(jīng)網(wǎng)絡(luò)也必須學(xué)會(huì)作出調(diào)整。此外,研究人員還調(diào)整了訓(xùn)練方法,以便使中間機(jī)器人之間的變化不會(huì)太大也不會(huì)太小。
這個(gè)由卡內(nèi)基梅隆大學(xué)設(shè)計(jì)的系統(tǒng)叫作REvolveR(RobotEvolve Robot)。它的表現(xiàn)優(yōu)于機(jī)器學(xué)習(xí)的基本方法,比如從頭開始訓(xùn)練目標(biāo)機(jī)器人的方法。在錘擊任務(wù)和其他訓(xùn)練任務(wù)(包括移動(dòng)一個(gè)球和打開一扇門)中,為了使機(jī)器人夾爪達(dá)到90%的成功率,此前最好的替代性訓(xùn)練方法需要比REvolveR多執(zhí)行29%~108%的試驗(yàn)次數(shù),盡管這些替代性方法在訓(xùn)練過程中提供了更多的信息反饋。接下來,研究人員還使用其他類型的虛擬機(jī)器人測(cè)試他們的訓(xùn)練方法。例如,利用這種方法為一個(gè)蜘蛛狀機(jī)器人添加新的腿部結(jié)構(gòu),并讓它重新學(xué)會(huì)爬行。
維塔利·庫林(未參與這項(xiàng)研究)是英國牛津大學(xué)的計(jì)算機(jī)科學(xué)家,主要研究機(jī)器人和機(jī)器學(xué)習(xí),他表示:“我認(rèn)為這是一種非常巧妙的方法?!北M管通過將艱巨的挑戰(zhàn)分解成一系列小的部分,從而使AI能夠在不同的任務(wù)之間實(shí)現(xiàn)技能遷移的方法并不新鮮,“但在一個(gè)機(jī)器人與另一個(gè)機(jī)器人之間進(jìn)行內(nèi)插,以此實(shí)現(xiàn)技能遷移,這是我以前從未想到的。”