久久99国产精品久久99_日韩在线第二页_日韩人妻无码一区二区三区久久_久久亚洲私人国产精品

咨詢熱線:021-80392549

 QQ在線  企業(yè)微信
 資訊 > 智能機器人 > 正文

谷歌開發(fā)乒乓球機器人:一回合可接球340次,探索動態(tài)高速人機互動

2022/10/20澎湃新聞251

機器人學習目前已經被廣泛應用于現(xiàn)實世界,并可以完成精密的手部、腿部動作。但在動態(tài)且高速的人機互動中,機器人學習并不常見。谷歌選擇開發(fā)乒乓球機器人,正是為了探索這類情況下人工智能的可能性。

·使用i-Sim2Real這種方式,在模擬環(huán)境下可以讓數(shù)年的實時訓練在幾分鐘或幾小時內完成。


谷歌i-Sim2Real項目乒乓球機器人與人類訓練。本文圖片來源:谷歌

似乎現(xiàn)存的每一種桌上運動中,人工智能都立于不敗之地。乒乓球競技中,谷歌AI同樣難逢敵手。10月18日,谷歌公布其正在研究的“乒乓球機器人”項目,在與人類對打時一回合可接球340次。目前,谷歌強調這只是人類與AI的“合作”,并非擊敗人類,但以AI成長的速度,它將很快成為專業(yè)選手。

機器人學習目前已經被廣泛應用于現(xiàn)實世界,并可以完成精密的手部、腿部動作。但在動態(tài)且高速的人機互動中,機器人學習并不常見。谷歌選擇開發(fā)乒乓球機器人,正是為了探索這類情況下人工智能的可能性。

解決“先有雞還是先有蛋”

在這個名為i-Sim2Real的項目中,谷歌的乒乓球機器人在模擬環(huán)境中不斷學習,并將學習成果運用于現(xiàn)實世界,最終可以在一個與人類的乒乓球接發(fā)回合中,接球超過三百次。它還能把球送回不同的區(qū)域,雖然不能精確到數(shù)字上,但已經足夠精確到讓機器人規(guī)劃策略,來控制乒乓球的最終目的地。

乒乓球機器人可以在一個回合中接球超過三百次。視頻來源:谷歌(00:10)
谷歌之所以選擇乒乓球運動,是因為機器人可以與快節(jié)奏以及相對不可預測的人類行為進行交互,同時乒乓球的規(guī)則相對于籃球、板球等運動也較為簡單直接。機器人完成乒乓球動作時,既要求速度又要求精度,這對學習算法提出了很高的要求。同時,這類運動具有固定的、可預測的環(huán)境,使其成為研究人機交互和強化學習問題的理想測試平臺。這些特性使得谷歌開發(fā)了i-Sim2Real項目。

i-Sim2Real也不僅僅是關于乒乓球機器人,更是一種人工智能創(chuàng)造過程的方式,在這個過程中,機器學習模型被教會在虛擬環(huán)境或模擬中做什么,然后再應用這些知識,目標是盡可能長時間地與人類進行接球回合而不失誤。在現(xiàn)實世界中直接與人類玩家進行訓練既繁瑣又耗時,當需要數(shù)年的試驗和錯誤才能建立一個工作模型時,使用i-Sim2Real這種方式顯得十分有效,它在模擬環(huán)境下可以讓數(shù)年的實時訓練在幾分鐘或幾小時內完成。

這種方式聽起來簡單高效,但在模擬中機器人并不是萬能的。人類的活動具有一定的不可預測性,并不容易模擬,需要先有人類的行為模型作為支撐。而人類的行為模型,又需要與機器人互動獲得。這就陷入了一個“是先有雞還是先有蛋”的死循環(huán)。

i-Sim2Real解決這一雞和蛋問題的方法,是使用一個簡單的人類行為模型作為近似起點,并讓機器人在模擬訓練和現(xiàn)實訓練之間交替學習。在每次迭代中,都會細化人類行為模型和策略。在機器人接近人類行為的過程中,初期的不理想是可以接受的,因為機器人也只是剛剛開始學習,之后每一場比賽都會收集更多真實的人類數(shù)據(jù),提高準確性,讓AI學到更多。

i-Sim2Real的訓練方法。

GoalsEye:通過自我監(jiān)督來自主練習

除了i-Sim2Real這種模擬與現(xiàn)實交替進行的方法,研究人員也在探索只使用現(xiàn)實的數(shù)據(jù)學習的方法,即GoalsEye項目。

一開始,模仿學習(IL)為研究人員提供了一種簡單而穩(wěn)定的思路,但它需要人類行為進行演示,并且機器人的技術無法超過演示者的水平。同時,當演示者擁有在高速環(huán)境下精確接球的能力時,收集其數(shù)據(jù)具有一定挑戰(zhàn)性,而且在剛開始時可能非常低效。因此研究人員嘗試了一種結合最近行為進行重復的方法,從一個小的、結構薄弱的、非目標數(shù)據(jù)集開始,不斷學習精確定位目標的策略。

這種方法使得在訓練的過程中,機器人的自主學習能力顯得至關重要。研究人員設置了一個強調精度的乒乓球任務,要求機器人將球返回到桌子上的任意目標位置。機器人可以通過自我監(jiān)督來實現(xiàn)自主練習。例如,機器人可以設置隨機目標,“擊中左后角”或“將球從右側過網(wǎng)”,并嘗試使用當前掌握的策略來實現(xiàn)這些目標,從而不斷改進。所有嘗試都會記錄并添加到不斷擴展的數(shù)據(jù)集中。這種自主練習是反復進行的,機器人通過不斷的設置隨機目標并嘗試目標,從而擴展訓練數(shù)據(jù),調整策略。

GoalsEye策略旨在實現(xiàn)直徑20厘米的目標(左)。人類玩家瞄準同一個目標(右)。

GoalsEye的訓練方法。

其效果也是顯而易見的,在進行最初的2480次人類行為演示后,機器人只在9%的情況下能準確地達到距離目標30厘米以內的目標。然而,當機器人又自主練習了大約13500次后,達到目標的準確率上升到43%。同時,演示數(shù)量的提升提高了后續(xù)自我練習的效率,這說明,計算時間、成本等因素后,演示可以適當替換自我練習,從而更高效的進行訓練。

在這兩個使用機器人乒乓球研究平臺的互補項目中,i-Sim2Real可以在模擬與現(xiàn)實中交替學習策略,而GoalsEye則證明,從現(xiàn)實世界的非結構化數(shù)據(jù)中學習,結合自我訓練,對于在精確且動態(tài)的要求中學習目標條件策略是有效的。

關鍵詞: 乒乓球機器人




AI人工智能網(wǎng)聲明:

凡資訊來源注明為其他媒體來源的信息,均為轉載自其他媒體,并不代表本網(wǎng)站贊同其觀點,也不代表本網(wǎng)站對其真實性負責。您若對該文章內容有任何疑問或質疑,請立即與網(wǎng)站(m.gzlyhb.com)聯(lián)系,本網(wǎng)站將迅速給您回應并做處理。


聯(lián)系電話:021-31666777   新聞、技術文章投稿QQ:3267146135   投稿郵箱:syy@gongboshi.com

工博士人工智能網(wǎng)
商城
服務機器人
智能設備
協(xié)作機器人
智慧場景
AI資訊
人工智能
智能機器人
智慧城市
智慧農業(yè)
視頻
工業(yè)機器人
教育機器人
清潔機器人
迎賓機器人
資料下載
服務機器人
工博士方案
品牌匯
引導接待機器人
配送機器人
酒店服務機器人
教育教學機器人
產品/服務
服務機器人
工業(yè)機器人
機器人零部件
智能解決方案
掃描二維碼關注微信
?掃碼反饋

掃一掃,反饋當前頁面

咨詢反饋
掃碼關注

微信公眾號

返回頂部