機(jī)器人學(xué)習(xí)目前已經(jīng)被廣泛應(yīng)用于現(xiàn)實(shí)世界,并可以完成精密的手部、腿部動(dòng)作。但在動(dòng)態(tài)且高速的人機(jī)互動(dòng)中,機(jī)器人學(xué)習(xí)并不常見。谷歌選擇開發(fā)乒乓球機(jī)器人,正是為了探索這類情況下人工智能的可能性。
·使用i-Sim2Real這種方式,在模擬環(huán)境下可以讓數(shù)年的實(shí)時(shí)訓(xùn)練在幾分鐘或幾小時(shí)內(nèi)完成。
谷歌i-Sim2Real項(xiàng)目乒乓球機(jī)器人與人類訓(xùn)練。本文圖片來源:谷歌
似乎現(xiàn)存的每一種桌上運(yùn)動(dòng)中,人工智能都立于不敗之地。乒乓球競技中,谷歌AI同樣難逢敵手。10月18日,谷歌公布其正在研究的“乒乓球機(jī)器人”項(xiàng)目,在與人類對打時(shí)一回合可接球340次。目前,谷歌強(qiáng)調(diào)這只是人類與AI的“合作”,并非擊敗人類,但以AI成長的速度,它將很快成為專業(yè)選手。
機(jī)器人學(xué)習(xí)目前已經(jīng)被廣泛應(yīng)用于現(xiàn)實(shí)世界,并可以完成精密的手部、腿部動(dòng)作。但在動(dòng)態(tài)且高速的人機(jī)互動(dòng)中,機(jī)器人學(xué)習(xí)并不常見。谷歌選擇開發(fā)乒乓球機(jī)器人,正是為了探索這類情況下人工智能的可能性。
解決“先有雞還是先有蛋”
在這個(gè)名為i-Sim2Real的項(xiàng)目中,谷歌的乒乓球機(jī)器人在模擬環(huán)境中不斷學(xué)習(xí),并將學(xué)習(xí)成果運(yùn)用于現(xiàn)實(shí)世界,最終可以在一個(gè)與人類的乒乓球接發(fā)回合中,接球超過三百次。它還能把球送回不同的區(qū)域,雖然不能精確到數(shù)字上,但已經(jīng)足夠精確到讓機(jī)器人規(guī)劃策略,來控制乒乓球的最終目的地。
i-Sim2Real也不僅僅是關(guān)于乒乓球機(jī)器人,更是一種人工智能創(chuàng)造過程的方式,在這個(gè)過程中,機(jī)器學(xué)習(xí)模型被教會(huì)在虛擬環(huán)境或模擬中做什么,然后再應(yīng)用這些知識(shí),目標(biāo)是盡可能長時(shí)間地與人類進(jìn)行接球回合而不失誤。在現(xiàn)實(shí)世界中直接與人類玩家進(jìn)行訓(xùn)練既繁瑣又耗時(shí),當(dāng)需要數(shù)年的試驗(yàn)和錯(cuò)誤才能建立一個(gè)工作模型時(shí),使用i-Sim2Real這種方式顯得十分有效,它在模擬環(huán)境下可以讓數(shù)年的實(shí)時(shí)訓(xùn)練在幾分鐘或幾小時(shí)內(nèi)完成。
這種方式聽起來簡單高效,但在模擬中機(jī)器人并不是萬能的。人類的活動(dòng)具有一定的不可預(yù)測性,并不容易模擬,需要先有人類的行為模型作為支撐。而人類的行為模型,又需要與機(jī)器人互動(dòng)獲得。這就陷入了一個(gè)“是先有雞還是先有蛋”的死循環(huán)。
i-Sim2Real解決這一雞和蛋問題的方法,是使用一個(gè)簡單的人類行為模型作為近似起點(diǎn),并讓機(jī)器人在模擬訓(xùn)練和現(xiàn)實(shí)訓(xùn)練之間交替學(xué)習(xí)。在每次迭代中,都會(huì)細(xì)化人類行為模型和策略。在機(jī)器人接近人類行為的過程中,初期的不理想是可以接受的,因?yàn)闄C(jī)器人也只是剛剛開始學(xué)習(xí),之后每一場比賽都會(huì)收集更多真實(shí)的人類數(shù)據(jù),提高準(zhǔn)確性,讓AI學(xué)到更多。
i-Sim2Real的訓(xùn)練方法。
GoalsEye:通過自我監(jiān)督來自主練習(xí)
除了i-Sim2Real這種模擬與現(xiàn)實(shí)交替進(jìn)行的方法,研究人員也在探索只使用現(xiàn)實(shí)的數(shù)據(jù)學(xué)習(xí)的方法,即GoalsEye項(xiàng)目。
一開始,模仿學(xué)習(xí)(IL)為研究人員提供了一種簡單而穩(wěn)定的思路,但它需要人類行為進(jìn)行演示,并且機(jī)器人的技術(shù)無法超過演示者的水平。同時(shí),當(dāng)演示者擁有在高速環(huán)境下精確接球的能力時(shí),收集其數(shù)據(jù)具有一定挑戰(zhàn)性,而且在剛開始時(shí)可能非常低效。因此研究人員嘗試了一種結(jié)合最近行為進(jìn)行重復(fù)的方法,從一個(gè)小的、結(jié)構(gòu)薄弱的、非目標(biāo)數(shù)據(jù)集開始,不斷學(xué)習(xí)精確定位目標(biāo)的策略。
這種方法使得在訓(xùn)練的過程中,機(jī)器人的自主學(xué)習(xí)能力顯得至關(guān)重要。研究人員設(shè)置了一個(gè)強(qiáng)調(diào)精度的乒乓球任務(wù),要求機(jī)器人將球返回到桌子上的任意目標(biāo)位置。機(jī)器人可以通過自我監(jiān)督來實(shí)現(xiàn)自主練習(xí)。例如,機(jī)器人可以設(shè)置隨機(jī)目標(biāo),“擊中左后角”或“將球從右側(cè)過網(wǎng)”,并嘗試使用當(dāng)前掌握的策略來實(shí)現(xiàn)這些目標(biāo),從而不斷改進(jìn)。所有嘗試都會(huì)記錄并添加到不斷擴(kuò)展的數(shù)據(jù)集中。這種自主練習(xí)是反復(fù)進(jìn)行的,機(jī)器人通過不斷的設(shè)置隨機(jī)目標(biāo)并嘗試目標(biāo),從而擴(kuò)展訓(xùn)練數(shù)據(jù),調(diào)整策略。
GoalsEye策略旨在實(shí)現(xiàn)直徑20厘米的目標(biāo)(左)。人類玩家瞄準(zhǔn)同一個(gè)目標(biāo)(右)。
GoalsEye的訓(xùn)練方法。
其效果也是顯而易見的,在進(jìn)行最初的2480次人類行為演示后,機(jī)器人只在9%的情況下能準(zhǔn)確地達(dá)到距離目標(biāo)30厘米以內(nèi)的目標(biāo)。然而,當(dāng)機(jī)器人又自主練習(xí)了大約13500次后,達(dá)到目標(biāo)的準(zhǔn)確率上升到43%。同時(shí),演示數(shù)量的提升提高了后續(xù)自我練習(xí)的效率,這說明,計(jì)算時(shí)間、成本等因素后,演示可以適當(dāng)替換自我練習(xí),從而更高效的進(jìn)行訓(xùn)練。
在這兩個(gè)使用機(jī)器人乒乓球研究平臺(tái)的互補(bǔ)項(xiàng)目中,i-Sim2Real可以在模擬與現(xiàn)實(shí)中交替學(xué)習(xí)策略,而GoalsEye則證明,從現(xiàn)實(shí)世界的非結(jié)構(gòu)化數(shù)據(jù)中學(xué)習(xí),結(jié)合自我訓(xùn)練,對于在精確且動(dòng)態(tài)的要求中學(xué)習(xí)目標(biāo)條件策略是有效的。