在5G的加持下,許多產(chǎn)業(yè)通過人工智能來讓產(chǎn)品更人性化。但這大多只是人工智能通過算法、算力和大數(shù)據(jù),實(shí)現(xiàn)優(yōu)化服務(wù)的結(jié)果,不能代表人工智能更接近人類。來自深圳艾文哲思科技有限公司的混沌研究院,為了讓人工智能更接近人類,通過博弈論的納什均衡策略組合,讓人工智能可以處理現(xiàn)實(shí)中的非完美信息。混沌研究院成功研發(fā)國(guó)內(nèi)首個(gè)智能決策人工智能機(jī)器人:神策·DeepTexas,并應(yīng)用于撲克比賽中,從而讓AI更接近人類,進(jìn)而超越人類。
從AlphaGo的深度學(xué)習(xí)技術(shù)在圍棋中展現(xiàn)的實(shí)力,即人工智能在有章可循、完美信息的情況下,可以展現(xiàn)的超越人類的計(jì)算能力。但現(xiàn)實(shí)世界錯(cuò)綜復(fù)雜, 90%以上的場(chǎng)景都是非完美信息,甚至包括對(duì)人類想法的推測(cè),這是AlphaGo所力所不及的,它不能感受幸運(yùn)、了解決策,它只能按部就班地基于人類制定的規(guī)則循序漸進(jìn)。而混沌研究院所研發(fā)的國(guó)內(nèi)首個(gè)智能決策類人工智能機(jī)器人:神策·DeepTexas,卻另辟蹊徑,攻克了這個(gè)曠日持久的難題。其獨(dú)創(chuàng)的算法:Fast-Net、FRM、TSW,能結(jié)合神經(jīng)網(wǎng)絡(luò),運(yùn)用機(jī)器學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、蒙特卡洛算法,讓人工智能不僅擁有對(duì)完美信息的處理能力,更擁有對(duì)非完美信息的解析和決策能力。
在人工智能領(lǐng)域的創(chuàng)新中,撲克與麻將類似,都比圍棋比賽有更嚴(yán)格的“決策”要求。即在包含幾率、可能性、推測(cè)的情景中,人工智能要對(duì)這些信息進(jìn)行處理,并根據(jù)情景進(jìn)行推理,從而做出相應(yīng)的決策。“神策·DeepTexas”通過多年的研究,憑借在撲克比賽中的實(shí)踐,終于擁有了“直覺”與“智能決策”,不僅進(jìn)一步擴(kuò)大了掌握博弈論的人工智能的應(yīng)用,更具備了處理非完美信息的解析和決策判斷能力。
為了進(jìn)一步了解智能決策AI相關(guān)問題,我們還采訪到了混沌研究院的工程師們。他們大多都是經(jīng)驗(yàn)豐富的資深工程師, 來自谷歌、蘋果、華為、聯(lián)想、酷派等知名企業(yè)。
以下是混沌研究院DeepTexas團(tuán)隊(duì)負(fù)責(zé)人鮑凌威的專訪實(shí)錄:
問:請(qǐng)給我們介紹一下神策·DeepTexas的核心技術(shù)、算法以及它能提供的服務(wù)?
答:DeepTexas的核心算法是基于機(jī)器學(xué)習(xí)、強(qiáng)化學(xué)習(xí)和博弈論, 采用納什均衡的對(duì)戰(zhàn)策略,通過大量MC(Monte Carlo)蒙特卡洛采樣來計(jì)算CFR(Counterfactual Regret Minimization 虛擬遺憾最小化)的值域或頻域作為DQN神經(jīng)網(wǎng)絡(luò)的行動(dòng)Value,探索和選取GTO最優(yōu)策略,并在博弈中不斷自我學(xué)習(xí),從而優(yōu)化并最終形成最優(yōu)決策。 通過我們獨(dú)創(chuàng)的“神策 DeepTexas”人工智能決策算法,如Fast-Net、FRM、TSW,可以幫助人類應(yīng)對(duì)錯(cuò)綜復(fù)雜的現(xiàn)實(shí)場(chǎng)景,做出最有效的智能決策,可以大量應(yīng)用到諸如金融投資、公共安全、智能游戲、自動(dòng)駕駛、物流存儲(chǔ)、醫(yī)療健康等業(yè)務(wù)領(lǐng)域。
問:作為中國(guó)第一個(gè)做出撲克比賽類人工智能的團(tuán)隊(duì),能否說明一下為什么會(huì)有這種選擇呢?
答:人工智能是大勢(shì)所趨,國(guó)家也在大力促進(jìn)人工智能的發(fā)展,雖然阿法爾狗已經(jīng)完成了對(duì)完美信息場(chǎng)景下的決策預(yù)判,但現(xiàn)實(shí)生活中,90%以上的場(chǎng)景都是非完美信息,這就需要人工智能能夠更有效地對(duì)此復(fù)雜情況做更深入的解析和預(yù)判,幫助人類從錯(cuò)綜復(fù)雜的場(chǎng)景中做出最有效的智能決策,況且我們有豐富的撲克比賽經(jīng)驗(yàn)和業(yè)務(wù)團(tuán)隊(duì),做撲克比賽類人工智能是我們必然的戰(zhàn)略選擇。
問:神策·DeepTexas也會(huì)欺騙嗎?
答:會(huì)的,神策·DeepTexas會(huì)模仿人類的欺騙進(jìn)行圈套的設(shè)計(jì),根據(jù)自己所處的環(huán)境、目標(biāo)的行動(dòng)進(jìn)行適當(dāng)?shù)钠垓_。DeepTexas已經(jīng)通過了圖靈測(cè)試,具備與人類一較高下的Bluff能力。
問:眾所周知,比賽的重點(diǎn)是在于他的公正性,那么團(tuán)隊(duì)是如何來保證神策·DeepTexas的公正性的?
答:為了保證AI的公正性,線上我們采用國(guó)際公認(rèn)的ACPC標(biāo)準(zhǔn)。 加拿大阿爾伯特大學(xué)的DeepStack 和 CMU 的Librutas和 Pluribus 也都使用ACPC標(biāo)準(zhǔn)。在實(shí)驗(yàn)中,我們結(jié)合真人與人工智能的互動(dòng)進(jìn)行策略倒算,從而驗(yàn)證智能決策AI的公正性,保障智能決策AI在更嚴(yán)謹(jǐn)?shù)那榫爸校缃鹑?、公共安全等領(lǐng)域中,能夠有更完美的表現(xiàn)。
問:有人認(rèn)為人工智能的發(fā)展對(duì)投機(jī)思維帶來致命的打擊,你認(rèn)為人工智能的發(fā)展會(huì)對(duì)各行各業(yè)造成什么影響呢?
答:不必過分解讀。 人工智能的出現(xiàn)已經(jīng)對(duì)各行各業(yè)都會(huì)帶來了不小的沖擊,這是真正的第四次工業(yè)革命。其實(shí)危機(jī)就是危險(xiǎn)和機(jī)遇,永遠(yuǎn)相伴而生,此消彼長(zhǎng)。就像這次的冠狀病毒一樣,災(zāi)難中就孕育著機(jī)會(huì),正所謂浴火重生。我們的DeepTexas在實(shí)驗(yàn)中可以幫助人類通過對(duì)非完美信息的解析和預(yù)判,做出最有效的智能決策,從而幫助人類提高抗風(fēng)險(xiǎn)能力、驗(yàn)證反欺詐策略的可靠性,進(jìn)而提高對(duì)錯(cuò)綜復(fù)雜事務(wù)的判斷力和決策力。
問:神策·DeepTexas攻克“不完美信息”,它在真實(shí)社會(huì)中反映著解決了那些問題場(chǎng)景呢?未來對(duì)人類的工作生活又會(huì)有哪些影響與改變?請(qǐng)舉一些例子?
答:對(duì)“不完美信息”的攻克,可以幫助人類對(duì)真實(shí)社會(huì)中存在的大量非完美信息做出最有效的智能決策,如自動(dòng)駕駛、營(yíng)銷決策、物流倉(cāng)儲(chǔ)、衛(wèi)生健康、公共安全等,比如可以應(yīng)用我們的研發(fā)成果,建立競(jìng)拍報(bào)價(jià)決策模型,確定最佳報(bào)價(jià)進(jìn)行投標(biāo),獲得收益最大化。
問:神策·DeepTexas會(huì)在未來有何動(dòng)作呢?
答:神策·DeepTexas目前的實(shí)驗(yàn)版本是 1對(duì)1人機(jī)模式,未來會(huì)向多人模式發(fā)展,并在后續(xù)舉辦真人與AI的線下挑戰(zhàn)賽事,與多個(gè)人類斗智斗勇。同時(shí)也會(huì)基于我們的AI智能決策算法,將研發(fā)成果不僅僅運(yùn)用在撲克比賽上,還能應(yīng)用于金融投資、公共安全、智能交通、物流存儲(chǔ)、醫(yī)療健康等各個(gè)領(lǐng)域,幫助客戶應(yīng)對(duì)海量錯(cuò)綜復(fù)雜的非完美信息,提升工作效率。