認知體系作為人工智能的一個重要分支,它的研究和應用經(jīng)過了近40年的發(fā)展,已取得了可見的成果。
關(guān)于認知體系的分類,目前相對主流的三大范式是:符號(也稱為認知)、涌現(xiàn)(也稱為聯(lián)結(jié))和混合。到底哪一個正確地反映了人類的認知過程,仍然是一個懸而未決的問題,在過去的30年里一直在爭論.
符號范式通常使用預定義指令集等符號來表示概念。指令通常以if-then的規(guī)則形式執(zhí)行,例如ACT-R, Soar等產(chǎn)生式體系。這是一種自然而直觀的表示方式,因此符號操作仍然是一種公認的表示方式之一。雖然符號范式擅長計劃(規(guī)劃)和推理,但不具有處理環(huán)境變化和感知所需要的靈活性和魯棒性。
涌現(xiàn)范式通常建立大規(guī)模并行模型來解決適應性和學習問題,例如神經(jīng)網(wǎng)絡模型,其數(shù)據(jù)來自輸入節(jié)點。然而,由于信息或知識不再是一組可解釋的符號實體,而往往分布在整個網(wǎng)絡中,這導致模型不再透明。在涌現(xiàn)模式中,傳統(tǒng)意義上的邏輯推理似乎成為不可能。
自然地,每種范式都有優(yōu)缺點。一方面,任何符號體系結(jié)構(gòu)創(chuàng)建初始知識庫需要大量工作,可一旦完成,體系結(jié)構(gòu)就完全功能性。另一方面,涌現(xiàn)體系結(jié)構(gòu)更易于設計,但它們必須經(jīng)過大量訓練才能產(chǎn)生有用的行為;此外,他們的現(xiàn)有知識可能隨著新行為的學習而惡化。
由于符號和涌現(xiàn)范式都不能解決認知的所有問題,混合范式試圖結(jié)合符號和涌現(xiàn)的元素,這樣的混合體系在我們選擇的架構(gòu)中是最常見的。一般來說,混合方式?jīng)]有限制,而且已經(jīng)探索了許多可能性。除了考慮表示,還考慮系統(tǒng)是單模塊還是多模塊、異構(gòu)還是同質(zhì),或考慮混合的粒度(粗粒度還是細粒度)、符號和子符號組件之間的耦合性。此外,并不是所有的混合架構(gòu)都明確地解決了所謂的符號和次符號元素以及將它們組合起來的問題。只有少數(shù)幾個體系結(jié)構(gòu),例如ACTR、CLARION、DUAL、CogPrime、CAPS、SiMA、GMU-BICA和Sigma,認為這種集成是必要的。我們將重點放在表示和處理上。
圖1顯示了分類分組的組織結(jié)構(gòu)。在頂層分成了:符號的、涌現(xiàn)的和混合的。關(guān)于這些術(shù)語的界定也是模糊的,即使對于最著名的架構(gòu)(例如Soar和ACT-R)也不能達成一致。盡管兩者都將符號和次符號元素結(jié)合起來,ACT-R的作者明確地表達為混合模式,而Soar沒有。各位學者的觀點也不一致,Soar和ACT-R在[14,15]中都被稱為符號主義者,而[16]將它們列為混合體。
圖1
為了避免分組的不一致性,我們假設顯式符號是符號表示的原子,可以組合成有意義的表達式。這些符號用于推理或句法分析。子符號表示通常與神經(jīng)元的隱喻聯(lián)系在一起,這種表示的一個典型是神經(jīng)網(wǎng)絡。在神經(jīng)網(wǎng)絡中,知識被編碼為分布在神經(jīng)元之間的數(shù)值模式,與單元相關(guān)聯(lián)的權(quán)重影響處理,并通過學習獲得。
對于我們的分類,我們假設任何非顯式符號和處理(句法操作除外)都是子符號(例如數(shù)值數(shù)據(jù)、像素、概率,傳播激活、強化學習等)。結(jié)合了兩種表示中的任意組合都被當作混合模式。給定這些定義,將標簽分配給所有架構(gòu)并將它們可視化為圖1。
我們區(qū)分了兩類涌現(xiàn)類別:實現(xiàn)類生物神經(jīng)元的神經(jīng)元模型和更接近人工神經(jīng)網(wǎng)絡的連接(邏輯)模式。在混合模式中,我們將符號子處理(其中符號模式與執(zhí)行子符號計算模塊相結(jié)合)作為混合模式的一個子類,符號子處理組中的架構(gòu)至少包括一個用于感知處理的子符號模塊,而其余的知識和處理是符號的,例如3T, ATLANTIS, RCS, DIARC, CARACaS and CoSy。雖然存在其他類型的功能組合(例如協(xié)同處理、元處理和鏈處理),但是難以歸類。因此,其他的都歸類為完全集成的混合模式。完全集成的體系結(jié)構(gòu)使用多種方法來組合不同的表示。ACT-R、Soar、CAPS、Copycat/metacat、CHREST、CHARISMA、CELTS、CoJACK、CLARION、REM、NARS和Xapagy將符號概念和具有次符號元素(如激活值、擴散激活、隨機選擇過程、強化學習等)的規(guī)則結(jié)合起來。
綜上所述,混合架構(gòu)是數(shù)量最多的一組,并顯示出增長趨勢?;旌霞軜?gòu)根據(jù)符號和次符號組件的比例和扮演的角色,在涌現(xiàn)范式和符號范式之間形成一個連續(xù)統(tǒng)。例如,CogPrime和Sigma在概念上更接近于涌現(xiàn)系統(tǒng),因為它們與神經(jīng)網(wǎng)絡有許多共同的屬性。而REM、CHREST和RALPH以及3T和ATLANTIS,在很大程度上屬于符號范式;因為這些架構(gòu)主要是符號化的,雖然可以利用概率推理和學習機制。
4 感知(perception)
雖然早期的認知結(jié)構(gòu)主要側(cè)重于高層次的推理,但同樣重要的是感知和行為。
感知可以定義為將原始輸入數(shù)據(jù)轉(zhuǎn)換為系統(tǒng)內(nèi)部表示以執(zhí)行認知任務的過程。根據(jù)輸入數(shù)據(jù)的來源和性質(zhì)可以區(qū)分多種感知模式。例如,最常見的五種是視覺、聽覺、嗅覺、觸覺和味覺;其他的感覺包括本體感覺、熱感、痛覺、時間感等。
當然,認知結(jié)構(gòu)也實現(xiàn)了其中的一些與人類感官無關(guān)的符號輸入(使用鍵盤或圖形用戶界面(GUI))和各種傳感器(激光雷達、激光、紅外等)。根據(jù)其認知功能,智能系統(tǒng)可以將各種數(shù)量和類型的數(shù)據(jù)作為感知輸入。
因此,本節(jié)將研究使用各種數(shù)據(jù)輸入,從這些數(shù)據(jù)源中提取信息以及如何應用這些信息的認知體系。圖4中的將調(diào)研結(jié)果進行了可視化。
圖2:視覺(V)、聽覺(A)、觸覺(T)、嗅覺(S)、本體感覺(P)、數(shù)據(jù)輸入(D)、其他傳感器(O)和多模態(tài)(M)
從圖2的可視化中可以觀察到如下情況。例如,視覺是最常用的實現(xiàn)方式,然而,超過一半的體系使用模擬進行視覺輸入,而不是攝像機。觸覺和本體感覺等方式主要用于物理體現(xiàn)的設計。有些感知未被充分探索,例如嗅覺只在三種體系中出現(xiàn)(GLAIR、DAC和PRS0)??偟膩碚f,符號范式在設計上具有有限的感知能力,并且傾向于使用直接的輸入數(shù)據(jù)作為唯一的信息來源(參見圖的左側(cè))。另一方面,混合范式和涌現(xiàn)范式(主要位于右半部分圖中的)使用模擬和物理傳感器實現(xiàn)更廣泛的感知模式。然而,不管其來源如何,傳入的感知數(shù)據(jù)通常不能以原始形式使用(除了符號輸入之外),往往需要進一步處理。下面將討論在認體系中如何進行有效且充分的感知處理。
4.1視覺(vision)
長期以來,視覺是主要的感知模態(tài),雖然最近的研究建議更平衡的感知體驗觀[17],但認知結(jié)構(gòu)的研究仍然以視覺為中心,相對也是研究最多的感知模態(tài)。盡管在機器人技術(shù)中,各種非視覺傳感器(如聲納、超聲波距離傳感器)和本體感覺傳感器(如陀螺儀、圓規(guī))被用于解決諸如導航、避障和搜索等視覺任務,但視覺輸入占所有可能輸入模式的一半以上。根據(jù)Marr[18]的說法,視覺處理通常包括了三個不同的階段:早期、中期和晚期。早期視覺技術(shù)是數(shù)據(jù)驅(qū)動的,涉及到對視覺場景的并行處理,提取簡單的元素,如顏色、亮度、形狀、運動等。中期視覺技術(shù)將元素分組到區(qū)域中,然后在后期進行進一步處理,以識別對象,并使用可用的知識賦予它們意義。盡管Marr沒有提到,但視覺注意機制、情感和獎勵也會影響視覺處理的各個階段[19]。因此,感知和認知在各個處理階段都是緊密關(guān)聯(lián)的。
在認知體系中,基于圖像理解的視覺處理是分階段進行的【20】。這些階段包括:1)強度-位置-時間值的檢測和分組(產(chǎn)生邊緣、區(qū)域、流向量);2)邊緣、區(qū)域等的進一步分組(產(chǎn)生表面、體積,邊界、深度信息;3)對象識別及其運動識別;4)為實體建立以對象為中心的表示;5)基于任務為對象分配標簽;6)時空推斷實體之間的關(guān)系。在這里,只有階段1代表Marr三階段理論的早期階段,所有后續(xù)階段都需要一個附加的任務或世界知識。已經(jīng)在第2階段,特征的分組可以由被觀察的特定對象的視點信息和知識來促進。最后,后期階段對從早期和中間處理結(jié)果中抽象出來的高級表示進行推理和操作。
值得注意的是,在許多圖像理解的研究中通過執(zhí)行了隱式深度學習方法而實現(xiàn)的。在最近幾年中,我們已經(jīng)看到了深度學習在圖像處理和自然語言處理很多卓越表現(xiàn),然而令人驚訝的是很少認知架構(gòu)使用它。在CogPrime、LIDA、SPA和BECCA中可以找到深度學習在簡單視覺任務中的一些應用。
圖5顯示真實視覺和模擬視覺執(zhí)行處理的各個階段。真實視覺系統(tǒng)只接收像素級的輸入,而沒有附加信息(如攝像機參數(shù)、物體的位置和特征等)。圖像本身由相機生成,但體系結(jié)構(gòu)不需要連接到物理相機。模擬視覺系統(tǒng)通常忽略早期和中期處理階段,并以適合視覺處理后期階段的形式接收輸入(例如形狀和顏色的符號描述、對象標簽、坐標等)。技術(shù)上,任何不支持真實視覺或其他感知模式的體系結(jié)構(gòu),都可以通過接口進行擴展,該接口將其連接到傳感器或?qū)⒃紨?shù)據(jù)預處理為更合適的格式(如Soar、ACT-R)。但圖5僅僅顯示執(zhí)行了什么樣圖像解釋階段,而沒有反映出這樣處理的復雜性。
圖5:這些階段從早期到后期依次為:1)特征,2)原型對象,3)對象,4)對象模型,5)對象標簽,6)空間關(guān)系
不同深淺的藍色用來表示屬于早期、中期和晚期視覺的過程。這個具有真實和模擬視覺的架構(gòu)分別顯示在左欄和右欄中。每列中的順序按字母順序排列。
4.2基于傳感器的視覺(Vision using physical sensors)
大多數(shù)體系處理視覺各個階段都是物理嵌入的,包括機器人控制、生物啟發(fā)和仿生結(jié)構(gòu)。早期視覺(步驟1)通常涉及邊緣檢測和視差估計。然后這些特征分組(步驟2)為具有類似特征(顏色、深度等)的東西,這些東西被解析為具有質(zhì)心坐標的候選對象(步驟3)。使用離線方式學習對象模型(步驟4),并可用于對候選對象進行分類(步驟5)。
基于生物啟發(fā)的體系也使用計算機視覺算法,并遵循類似的處理階段。例如,用于目標檢測的神經(jīng)網(wǎng)絡(RCS、DIARC、Kismet),用于對象識別的SIFT特征(DIARC),用于手部檢測和跟蹤的SURF特征、AdaBoost學習和高斯混合(iCub),用于識別人體并確定年齡性別的Kinect和結(jié)合支持向量機的LBP特征(RoboCog和CORTEX)。
在有些體系結(jié)構(gòu)中,視覺與記憶、控制系統(tǒng)的聯(lián)系更加緊密,視覺處理中的一些步驟與人類視覺系統(tǒng)有明顯的相關(guān)性。其中一個例子是顯著性【saliency?】,它根據(jù)視覺刺激的特征或與任務的相關(guān)性,對視覺刺激的優(yōu)先級進行建模。因此,顯著性被用來尋找場景中感興趣的區(qū)域(Kismet、ARCADIA、DIARC、iCub、STAR)。自我球,一種在一些機器人結(jié)構(gòu)中發(fā)現(xiàn)的結(jié)構(gòu),模擬了海馬體在感覺信息和動作整合中的功能,盡管在生物學上不是合理的。本質(zhì)上,自我球在機器人周圍形成一個虛擬穹頂,突出的物體和事件被映射到上面。這個概念的各種實現(xiàn)包括在RCS、ISAC、iCub和MACSi中。
圖2體系中的第三個亞組追求生物學上合理的視覺。其中一個最詳細的例子是基于大腦腹側(cè)通路解剖的Leabra視覺系統(tǒng)(LVis)。它模擬了初級視覺皮層(V1)、紋狀體外區(qū)(V2、V4)和下顳葉皮層(IT)。這些區(qū)域中的計算大致對應于早期和中期處理步驟。LVis具有人類視覺系統(tǒng)的其他特征,例如在更高層次上的神經(jīng)元的更大的感受野、層之間的相互聯(lián)系以及限制跨層活動水平的反復抑制動力學。Darwin VIII(BBD)、SPA(Spaun)和ART的視覺系統(tǒng)也模仿了靈長類動物的腹側(cè)視覺通路。
SASE架構(gòu)并沒有緊密地復制人類的視覺系統(tǒng)。相反,它使用具有局部連接的層次神經(jīng)網(wǎng)絡,每個神經(jīng)元從前一層的限制區(qū)域獲得輸入。一層內(nèi)的感受野大小相同,并且在較高的水平上增加。該系統(tǒng)在一個室內(nèi)導航場景中的帆式機器人上進行了測試。MDB、BECCA和DAC中實現(xiàn)了類似的視覺方法。值得指出的是,盡管涌現(xiàn)范式?jīng)]有顯式地將標簽分配給對象,但是它們能夠形成場景中對象之間空間關(guān)系的某種隱式表示(比如向量表示),并將這些表示用于視覺導航等任務(BBD、BECCA、DAC、MDB、SASE)
4.3模擬視覺(Simulated vision)
從圖2可以明顯看出,大多數(shù)模擬只支持視覺處理的后期階段。最簡單的模擬是由物體填充的二維網(wǎng)格,例如ERE和PR使用的NASA TileWorld、GLAIR agents使用的Wumpus World、Ariadne agents使用的二維迷宮和CLARION social agents設計的部落模擬。網(wǎng)格環(huán)境中的代理通常只能看到有限的周圍環(huán)境,每個方向只能看到幾個單元格。Blocks world是另一個經(jīng)典領(lǐng)域,其一般任務是構(gòu)建各種形狀和顏色的塊堆棧(ACT-R、ICARUS、MIDCA。
盡管它們的復雜性和目的不同,不同的模擬通常提供關(guān)于環(huán)境的相同類型的數(shù)據(jù):對象、它們的屬性(顏色、形狀、標簽等)、代理本身的位置和屬性、對象和環(huán)境因素之間的空間關(guān)系(例如天氣和風向)。這種模擬主要用作可視化工具,與直接輸入的數(shù)據(jù)相差不大,因為幾乎不需要任何感官處理。更高級的模擬將場景表示為具有角點顏色和三維坐標的多邊形,這些角點必須進一步處理以識別對象(Novamente)。否則,3D模擬的視覺真實性主要是為了美學和感官,因為信息是直接以符號形式提供的(例如CoJACK,Pogamut)。
如前所述,圖2并不反映個體體系的環(huán)境或能力的復雜性差異。然而,在體現(xiàn)認知結(jié)構(gòu)的環(huán)境之間的大小和真實性。例如,ATLANTIS控制的行星漫游者在戶外巖石地形中進行越野導航。銷售機器人Gualzru(CORTEX)在一個滿是人的大房間里移動,iCub(MACsi)從桌子上識別并撿起各種玩具。另一方面,簡單即沒有障礙的環(huán)境也被用于認知結(jié)構(gòu)研究(BECCA,MDB)。此外,顏色編碼對象是簡化視覺處理的常用方法。例如,ADAPT跟蹤一個紅色在桌子上滾動的球和DAC將自己朝向標記有不同顏色的目標。此外,大多體系的應用只能識別少數(shù)不同的對象類別。只有Leabra能夠區(qū)分幾十個對象類別。隨著OpenCV、Cloud Point Library或Kinect API等可用軟件工具包的普及,可視化處理的質(zhì)量大大提高。但在試圖建立通用的生物學意義上的視覺系統(tǒng)模型,并沒有取得太多進展。目前,應用僅限于受控環(huán)境。
4.4聽覺(Audition)
聽覺是認知體系中一種常見的模態(tài),因為語音命令常常是用于指導智能系統(tǒng)或與之通信。由于聽覺模態(tài)是純功能性的,許多體系結(jié)構(gòu)使用可用的語音到文本軟件而不是開發(fā)聽覺模型。為數(shù)不多的進行了聽覺感知建模的體系包括了ACT-R、SPA和EPIC。例如,ARTWORD和ARTSTREAM被用來研究音位整合和音源隔離(雞尾酒會問題)。基于ACT-R發(fā)展了一個音樂解釋模型。
使用專用軟件進行語音處理和通信有助于實現(xiàn)復雜性和現(xiàn)實主義。例如,在機器人應用中,它允許銷售機器人編寫腳本在擁擠的房間里與人互動(CORTEX)或?qū)υ捰⒄Z的子集(CoSy)。一個更高級的應用包括使用語音識別來完成這個任務通過電話向公共圖書館訂購書籍(FORR)。使用現(xiàn)成語音的其他系統(tǒng)處理軟件包括PolyScheme和ISAC。在選擇的體系中,大部分工作都是針對自然語言處理,即語言和語音所承載的語義信息,很少有人注意到據(jù)情感內(nèi)容(如響度、語速和語調(diào))。在這個方向上的一些嘗試都是社會機器人。例如,社交機器人Kismet不明白人們在說什么,但它可以根據(jù)演講的韻律輪廓來確定贊同、禁止或安慰。這個Ymir體系結(jié)構(gòu)還具有韻律分析器和基于語法的語音識別器,可以理解100個單詞的有限詞匯。甚至聲音本身也可以作為線索,例如,BBD機器人可以將自己定向到一個響亮的聲音源。
4.5符號輸入(Symbolic input)
符號輸入結(jié)合了幾種不同于物理傳感和仿真模擬的輸入,包括了文本命令、數(shù)據(jù)以及通過GUI的輸入。文本是用于執(zhí)行規(guī)劃和邏輯推理任務的典型輸入形式(例如:NARS , OSCAR , MAX , Homer )。文本命令通常是根據(jù)體系結(jié)構(gòu)中使用的基元謂詞編寫的,因此不需要額外的解析。
4.6 多模態(tài)感知
在前面各節(jié)中,單獨考慮了各種的感知模式。然而,在現(xiàn)實中人腦從不同的感官接收到源源不斷的信息流,并將其整合成一個關(guān)聯(lián)的世界表征。認知結(jié)構(gòu)也是如此,因為近一半的認知結(jié)構(gòu)有兩種及以上不同的感知模式(圖1)。并非所有這些模式可能出現(xiàn)在一個單一的體系中,大多數(shù)體系同時使用兩種不同的模式,例如視覺和聽覺、視覺和符號輸入或視覺和距離傳感器。除了少數(shù)例外,這些體系結(jié)構(gòu)基本上執(zhí)行了認知科學中的特征集成或機器人學中的傳感器數(shù)據(jù)融合。顯然,可以使用不同的傳感器,而不必顯式地組合它們的輸出。
多感知通過互補和冗余提高感知的穩(wěn)健性,但在實踐中,使用許多不同的傳感器會帶來許多挑戰(zhàn),例如不完整或虛假或沖突的數(shù)據(jù)、具有不同屬性的數(shù)據(jù)(例如維度或值范圍)、對數(shù)據(jù)對齊和關(guān)聯(lián)的需要等。機器人研究領(lǐng)域?qū)@些實際問題進行了深入的研究,但是還沒有提出通用的解決方案。每個解決方案都必須為特定的應用程序定制,這是大多數(shù)認知架構(gòu)采用的一種普遍做法。不幸的是,文獻中很少有技術(shù)信息來確定所使用的確切技術(shù),并將它們與已建立的分類法聯(lián)系起來。
總的來說,傳感器集成的特定實現(xiàn)依賴于用于推理和任務的知識表示。在典型的具有符號推理的體系結(jié)構(gòu)中,來自不同傳感器的數(shù)據(jù)被獨立地處理,并映射到以代理為中心的3D地圖上,該地圖可用于導航(CaRACAS , CoSy)。在社會機器人的應用中,世界的表現(xiàn)形式可以是一個圍繞著主體的自我球體,它包含以自我為中心的坐標和視覺檢測對象的屬性,這些都與通過三角測量確定的聲音位置相關(guān)聯(lián)(ISAC,MACsi)。
RCS,一個具有層次結(jié)構(gòu)的模型,在每個層次上都有一個具有相應世界表示的感知處理模塊(例如:像素圖、3D模型、狀態(tài)表等)。有些體系隱式地執(zhí)行數(shù)據(jù)關(guān)聯(lián)和對齊,即傳感器數(shù)據(jù)和特征提?。ɡ?,來自攝像機的物體坐標和來自激光的障礙物距離)是獨立進行的。然后將提取的信息直接添加到工作內(nèi)存。任何模棱兩可和不一致都可以通過高階推理過程來解決。這是分布式體系結(jié)構(gòu)中的一種常見方法,其中獨立模塊同時為實現(xiàn)一個共同目標而工作(例如CERACRANIUM、Polyscheme、RoboCog、Ymir和LIDA)。
在許多受生物啟發(fā)的體系中,不同傳感器的讀數(shù)之間的關(guān)聯(lián)被學習。例如,DAC使用Hebbian學習來建立數(shù)據(jù)對齊,以便將不同感知模式的神經(jīng)表示映射到一個共同的框架,模擬大腦上丘的功能。ART通過神經(jīng)融合(ARTMAP網(wǎng)絡)將視覺和超聲波感官信息集成到移動機器人導航中。同樣,MDB使用神經(jīng)網(wǎng)絡從傳感器輸入學習世界模型,并使用遺傳算法調(diào)整網(wǎng)絡參數(shù)。
目前為止提到的所有方法都有一些相似的傳感集成,因為都使用空間和時間的接近或?qū)W習來消除多模態(tài)數(shù)據(jù)的歧義。但總的來說,只有很少的體系在感知層面上追求生物逼真度。唯一的一個在生物學上看似合理的感知集成模型是用基于大腦的設備(BBD)體系,被稱為Darwin XI的具體神經(jīng)模型是用來研究多感覺信息(來自觸摸傳感器、激光、相機和磁羅盤)的整合和在迷宮導航中的海馬體[163]。Darwin XI的神經(jīng)網(wǎng)絡由大約80000個神經(jīng)元和120萬個突觸組成,并模擬50個神經(jīng)區(qū)域。在損傷研究中,通過去除一個或多個感覺輸入并重新映射感覺神經(jīng)元單元,證明了系統(tǒng)的魯棒性。
一般來說,很多認知體系在很大程度上忽略了跨模態(tài)交互作用。這些體系,包括面向生物和面向認知的,在處理不同的感知模式時通常采用模塊化的方法。同時,在過去幾十年中進行的許多心理和神經(jīng)成像實驗表明,不同的感知相互影響。例如,視覺改變聽覺處理,反之亦然。然而,據(jù)我們所知,一些仿生體系,如上文提到的BBD,可能代表跨模態(tài)效應,這個問題還有待調(diào)研。