認(rèn)知體系作為人工智能的一個(gè)重要分支,它的研究和應(yīng)用經(jīng)過了近40年的發(fā)展,已取得了可見的成果。
關(guān)于認(rèn)知體系的分類,目前相對(duì)主流的三大范式是:符號(hào)(也稱為認(rèn)知)、涌現(xiàn)(也稱為聯(lián)結(jié))和混合。到底哪一個(gè)正確地反映了人類的認(rèn)知過程,仍然是一個(gè)懸而未決的問題,在過去的30年里一直在爭(zhēng)論.
符號(hào)范式通常使用預(yù)定義指令集等符號(hào)來表示概念。指令通常以if-then的規(guī)則形式執(zhí)行,例如ACT-R, Soar等產(chǎn)生式體系。這是一種自然而直觀的表示方式,因此符號(hào)操作仍然是一種公認(rèn)的表示方式之一。雖然符號(hào)范式擅長(zhǎng)計(jì)劃(規(guī)劃)和推理,但不具有處理環(huán)境變化和感知所需要的靈活性和魯棒性。
涌現(xiàn)范式通常建立大規(guī)模并行模型來解決適應(yīng)性和學(xué)習(xí)問題,例如神經(jīng)網(wǎng)絡(luò)模型,其數(shù)據(jù)來自輸入節(jié)點(diǎn)。然而,由于信息或知識(shí)不再是一組可解釋的符號(hào)實(shí)體,而往往分布在整個(gè)網(wǎng)絡(luò)中,這導(dǎo)致模型不再透明。在涌現(xiàn)模式中,傳統(tǒng)意義上的邏輯推理似乎成為不可能。
自然地,每種范式都有優(yōu)缺點(diǎn)。一方面,任何符號(hào)體系結(jié)構(gòu)創(chuàng)建初始知識(shí)庫需要大量工作,可一旦完成,體系結(jié)構(gòu)就完全功能性。另一方面,涌現(xiàn)體系結(jié)構(gòu)更易于設(shè)計(jì),但它們必須經(jīng)過大量訓(xùn)練才能產(chǎn)生有用的行為;此外,他們的現(xiàn)有知識(shí)可能隨著新行為的學(xué)習(xí)而惡化。
由于符號(hào)和涌現(xiàn)范式都不能解決認(rèn)知的所有問題,混合范式試圖結(jié)合符號(hào)和涌現(xiàn)的元素,這樣的混合體系在我們選擇的架構(gòu)中是最常見的。一般來說,混合方式?jīng)]有限制,而且已經(jīng)探索了許多可能性。除了考慮表示,還考慮系統(tǒng)是單模塊還是多模塊、異構(gòu)還是同質(zhì),或考慮混合的粒度(粗粒度還是細(xì)粒度)、符號(hào)和子符號(hào)組件之間的耦合性。此外,并不是所有的混合架構(gòu)都明確地解決了所謂的符號(hào)和次符號(hào)元素以及將它們組合起來的問題。只有少數(shù)幾個(gè)體系結(jié)構(gòu),例如ACTR、CLARION、DUAL、CogPrime、CAPS、SiMA、GMU-BICA和Sigma,認(rèn)為這種集成是必要的。我們將重點(diǎn)放在表示和處理上。
圖1顯示了分類分組的組織結(jié)構(gòu)。在頂層分成了:符號(hào)的、涌現(xiàn)的和混合的。關(guān)于這些術(shù)語的界定也是模糊的,即使對(duì)于最著名的架構(gòu)(例如Soar和ACT-R)也不能達(dá)成一致。盡管兩者都將符號(hào)和次符號(hào)元素結(jié)合起來,ACT-R的作者明確地表達(dá)為混合模式,而Soar沒有。各位學(xué)者的觀點(diǎn)也不一致,Soar和ACT-R在[14,15]中都被稱為符號(hào)主義者,而[16]將它們列為混合體。
圖1
為了避免分組的不一致性,我們假設(shè)顯式符號(hào)是符號(hào)表示的原子,可以組合成有意義的表達(dá)式。這些符號(hào)用于推理或句法分析。子符號(hào)表示通常與神經(jīng)元的隱喻聯(lián)系在一起,這種表示的一個(gè)典型是神經(jīng)網(wǎng)絡(luò)。在神經(jīng)網(wǎng)絡(luò)中,知識(shí)被編碼為分布在神經(jīng)元之間的數(shù)值模式,與單元相關(guān)聯(lián)的權(quán)重影響處理,并通過學(xué)習(xí)獲得。
對(duì)于我們的分類,我們假設(shè)任何非顯式符號(hào)和處理(句法操作除外)都是子符號(hào)(例如數(shù)值數(shù)據(jù)、像素、概率,傳播激活、強(qiáng)化學(xué)習(xí)等)。結(jié)合了兩種表示中的任意組合都被當(dāng)作混合模式。給定這些定義,將標(biāo)簽分配給所有架構(gòu)并將它們可視化為圖1。
我們區(qū)分了兩類涌現(xiàn)類別:實(shí)現(xiàn)類生物神經(jīng)元的神經(jīng)元模型和更接近人工神經(jīng)網(wǎng)絡(luò)的連接(邏輯)模式。在混合模式中,我們將符號(hào)子處理(其中符號(hào)模式與執(zhí)行子符號(hào)計(jì)算模塊相結(jié)合)作為混合模式的一個(gè)子類,符號(hào)子處理組中的架構(gòu)至少包括一個(gè)用于感知處理的子符號(hào)模塊,而其余的知識(shí)和處理是符號(hào)的,例如3T, ATLANTIS, RCS, DIARC, CARACaS and CoSy。雖然存在其他類型的功能組合(例如協(xié)同處理、元處理和鏈處理),但是難以歸類。因此,其他的都?xì)w類為完全集成的混合模式。完全集成的體系結(jié)構(gòu)使用多種方法來組合不同的表示。ACT-R、Soar、CAPS、Copycat/metacat、CHREST、CHARISMA、CELTS、CoJACK、CLARION、REM、NARS和Xapagy將符號(hào)概念和具有次符號(hào)元素(如激活值、擴(kuò)散激活、隨機(jī)選擇過程、強(qiáng)化學(xué)習(xí)等)的規(guī)則結(jié)合起來。
綜上所述,混合架構(gòu)是數(shù)量最多的一組,并顯示出增長(zhǎng)趨勢(shì)。混合架構(gòu)根據(jù)符號(hào)和次符號(hào)組件的比例和扮演的角色,在涌現(xiàn)范式和符號(hào)范式之間形成一個(gè)連續(xù)統(tǒng)。例如,CogPrime和Sigma在概念上更接近于涌現(xiàn)系統(tǒng),因?yàn)樗鼈兣c神經(jīng)網(wǎng)絡(luò)有許多共同的屬性。而REM、CHREST和RALPH以及3T和ATLANTIS,在很大程度上屬于符號(hào)范式;因?yàn)檫@些架構(gòu)主要是符號(hào)化的,雖然可以利用概率推理和學(xué)習(xí)機(jī)制。
4 感知(perception)
雖然早期的認(rèn)知結(jié)構(gòu)主要側(cè)重于高層次的推理,但同樣重要的是感知和行為。
感知可以定義為將原始輸入數(shù)據(jù)轉(zhuǎn)換為系統(tǒng)內(nèi)部表示以執(zhí)行認(rèn)知任務(wù)的過程。根據(jù)輸入數(shù)據(jù)的來源和性質(zhì)可以區(qū)分多種感知模式。例如,最常見的五種是視覺、聽覺、嗅覺、觸覺和味覺;其他的感覺包括本體感覺、熱感、痛覺、時(shí)間感等。
當(dāng)然,認(rèn)知結(jié)構(gòu)也實(shí)現(xiàn)了其中的一些與人類感官無關(guān)的符號(hào)輸入(使用鍵盤或圖形用戶界面(GUI))和各種傳感器(激光雷達(dá)、激光、紅外等)。根據(jù)其認(rèn)知功能,智能系統(tǒng)可以將各種數(shù)量和類型的數(shù)據(jù)作為感知輸入。
因此,本節(jié)將研究使用各種數(shù)據(jù)輸入,從這些數(shù)據(jù)源中提取信息以及如何應(yīng)用這些信息的認(rèn)知體系。圖4中的將調(diào)研結(jié)果進(jìn)行了可視化。
圖2:視覺(V)、聽覺(A)、觸覺(T)、嗅覺(S)、本體感覺(P)、數(shù)據(jù)輸入(D)、其他傳感器(O)和多模態(tài)(M)
從圖2的可視化中可以觀察到如下情況。例如,視覺是最常用的實(shí)現(xiàn)方式,然而,超過一半的體系使用模擬進(jìn)行視覺輸入,而不是攝像機(jī)。觸覺和本體感覺等方式主要用于物理體現(xiàn)的設(shè)計(jì)。有些感知未被充分探索,例如嗅覺只在三種體系中出現(xiàn)(GLAIR、DAC和PRS0)。總的來說,符號(hào)范式在設(shè)計(jì)上具有有限的感知能力,并且傾向于使用直接的輸入數(shù)據(jù)作為唯一的信息來源(參見圖的左側(cè))。另一方面,混合范式和涌現(xiàn)范式(主要位于右半部分圖中的)使用模擬和物理傳感器實(shí)現(xiàn)更廣泛的感知模式。然而,不管其來源如何,傳入的感知數(shù)據(jù)通常不能以原始形式使用(除了符號(hào)輸入之外),往往需要進(jìn)一步處理。下面將討論在認(rèn)體系中如何進(jìn)行有效且充分的感知處理。
4.1視覺(vision)
長(zhǎng)期以來,視覺是主要的感知模態(tài),雖然最近的研究建議更平衡的感知體驗(yàn)觀[17],但認(rèn)知結(jié)構(gòu)的研究仍然以視覺為中心,相對(duì)也是研究最多的感知模態(tài)。盡管在機(jī)器人技術(shù)中,各種非視覺傳感器(如聲納、超聲波距離傳感器)和本體感覺傳感器(如陀螺儀、圓規(guī))被用于解決諸如導(dǎo)航、避障和搜索等視覺任務(wù),但視覺輸入占所有可能輸入模式的一半以上。根據(jù)Marr[18]的說法,視覺處理通常包括了三個(gè)不同的階段:早期、中期和晚期。早期視覺技術(shù)是數(shù)據(jù)驅(qū)動(dòng)的,涉及到對(duì)視覺場(chǎng)景的并行處理,提取簡(jiǎn)單的元素,如顏色、亮度、形狀、運(yùn)動(dòng)等。中期視覺技術(shù)將元素分組到區(qū)域中,然后在后期進(jìn)行進(jìn)一步處理,以識(shí)別對(duì)象,并使用可用的知識(shí)賦予它們意義。盡管Marr沒有提到,但視覺注意機(jī)制、情感和獎(jiǎng)勵(lì)也會(huì)影響視覺處理的各個(gè)階段[19]。因此,感知和認(rèn)知在各個(gè)處理階段都是緊密關(guān)聯(lián)的。
在認(rèn)知體系中,基于圖像理解的視覺處理是分階段進(jìn)行的【20】。這些階段包括:1)強(qiáng)度-位置-時(shí)間值的檢測(cè)和分組(產(chǎn)生邊緣、區(qū)域、流向量);2)邊緣、區(qū)域等的進(jìn)一步分組(產(chǎn)生表面、體積,邊界、深度信息;3)對(duì)象識(shí)別及其運(yùn)動(dòng)識(shí)別;4)為實(shí)體建立以對(duì)象為中心的表示;5)基于任務(wù)為對(duì)象分配標(biāo)簽;6)時(shí)空推斷實(shí)體之間的關(guān)系。在這里,只有階段1代表Marr三階段理論的早期階段,所有后續(xù)階段都需要一個(gè)附加的任務(wù)或世界知識(shí)。已經(jīng)在第2階段,特征的分組可以由被觀察的特定對(duì)象的視點(diǎn)信息和知識(shí)來促進(jìn)。最后,后期階段對(duì)從早期和中間處理結(jié)果中抽象出來的高級(jí)表示進(jìn)行推理和操作。
值得注意的是,在許多圖像理解的研究中通過執(zhí)行了隱式深度學(xué)習(xí)方法而實(shí)現(xiàn)的。在最近幾年中,我們已經(jīng)看到了深度學(xué)習(xí)在圖像處理和自然語言處理很多卓越表現(xiàn),然而令人驚訝的是很少認(rèn)知架構(gòu)使用它。在CogPrime、LIDA、SPA和BECCA中可以找到深度學(xué)習(xí)在簡(jiǎn)單視覺任務(wù)中的一些應(yīng)用。
圖5顯示真實(shí)視覺和模擬視覺執(zhí)行處理的各個(gè)階段。真實(shí)視覺系統(tǒng)只接收像素級(jí)的輸入,而沒有附加信息(如攝像機(jī)參數(shù)、物體的位置和特征等)。圖像本身由相機(jī)生成,但體系結(jié)構(gòu)不需要連接到物理相機(jī)。模擬視覺系統(tǒng)通常忽略早期和中期處理階段,并以適合視覺處理后期階段的形式接收輸入(例如形狀和顏色的符號(hào)描述、對(duì)象標(biāo)簽、坐標(biāo)等)。技術(shù)上,任何不支持真實(shí)視覺或其他感知模式的體系結(jié)構(gòu),都可以通過接口進(jìn)行擴(kuò)展,該接口將其連接到傳感器或?qū)⒃紨?shù)據(jù)預(yù)處理為更合適的格式(如Soar、ACT-R)。但圖5僅僅顯示執(zhí)行了什么樣圖像解釋階段,而沒有反映出這樣處理的復(fù)雜性。
圖5:這些階段從早期到后期依次為:1)特征,2)原型對(duì)象,3)對(duì)象,4)對(duì)象模型,5)對(duì)象標(biāo)簽,6)空間關(guān)系
不同深淺的藍(lán)色用來表示屬于早期、中期和晚期視覺的過程。這個(gè)具有真實(shí)和模擬視覺的架構(gòu)分別顯示在左欄和右欄中。每列中的順序按字母順序排列。
4.2基于傳感器的視覺(Vision using physical sensors)
大多數(shù)體系處理視覺各個(gè)階段都是物理嵌入的,包括機(jī)器人控制、生物啟發(fā)和仿生結(jié)構(gòu)。早期視覺(步驟1)通常涉及邊緣檢測(cè)和視差估計(jì)。然后這些特征分組(步驟2)為具有類似特征(顏色、深度等)的東西,這些東西被解析為具有質(zhì)心坐標(biāo)的候選對(duì)象(步驟3)。使用離線方式學(xué)習(xí)對(duì)象模型(步驟4),并可用于對(duì)候選對(duì)象進(jìn)行分類(步驟5)。
基于生物啟發(fā)的體系也使用計(jì)算機(jī)視覺算法,并遵循類似的處理階段。例如,用于目標(biāo)檢測(cè)的神經(jīng)網(wǎng)絡(luò)(RCS、DIARC、Kismet),用于對(duì)象識(shí)別的SIFT特征(DIARC),用于手部檢測(cè)和跟蹤的SURF特征、AdaBoost學(xué)習(xí)和高斯混合(iCub),用于識(shí)別人體并確定年齡性別的Kinect和結(jié)合支持向量機(jī)的LBP特征(RoboCog和CORTEX)。
在有些體系結(jié)構(gòu)中,視覺與記憶、控制系統(tǒng)的聯(lián)系更加緊密,視覺處理中的一些步驟與人類視覺系統(tǒng)有明顯的相關(guān)性。其中一個(gè)例子是顯著性【saliency?】,它根據(jù)視覺刺激的特征或與任務(wù)的相關(guān)性,對(duì)視覺刺激的優(yōu)先級(jí)進(jìn)行建模。因此,顯著性被用來尋找場(chǎng)景中感興趣的區(qū)域(Kismet、ARCADIA、DIARC、iCub、STAR)。自我球,一種在一些機(jī)器人結(jié)構(gòu)中發(fā)現(xiàn)的結(jié)構(gòu),模擬了海馬體在感覺信息和動(dòng)作整合中的功能,盡管在生物學(xué)上不是合理的。本質(zhì)上,自我球在機(jī)器人周圍形成一個(gè)虛擬穹頂,突出的物體和事件被映射到上面。這個(gè)概念的各種實(shí)現(xiàn)包括在RCS、ISAC、iCub和MACSi中。
圖2體系中的第三個(gè)亞組追求生物學(xué)上合理的視覺。其中一個(gè)最詳細(xì)的例子是基于大腦腹側(cè)通路解剖的Leabra視覺系統(tǒng)(LVis)。它模擬了初級(jí)視覺皮層(V1)、紋狀體外區(qū)(V2、V4)和下顳葉皮層(IT)。這些區(qū)域中的計(jì)算大致對(duì)應(yīng)于早期和中期處理步驟。LVis具有人類視覺系統(tǒng)的其他特征,例如在更高層次上的神經(jīng)元的更大的感受野、層之間的相互聯(lián)系以及限制跨層活動(dòng)水平的反復(fù)抑制動(dòng)力學(xué)。Darwin VIII(BBD)、SPA(Spaun)和ART的視覺系統(tǒng)也模仿了靈長(zhǎng)類動(dòng)物的腹側(cè)視覺通路。
SASE架構(gòu)并沒有緊密地復(fù)制人類的視覺系統(tǒng)。相反,它使用具有局部連接的層次神經(jīng)網(wǎng)絡(luò),每個(gè)神經(jīng)元從前一層的限制區(qū)域獲得輸入。一層內(nèi)的感受野大小相同,并且在較高的水平上增加。該系統(tǒng)在一個(gè)室內(nèi)導(dǎo)航場(chǎng)景中的帆式機(jī)器人上進(jìn)行了測(cè)試。MDB、BECCA和DAC中實(shí)現(xiàn)了類似的視覺方法。值得指出的是,盡管涌現(xiàn)范式?jīng)]有顯式地將標(biāo)簽分配給對(duì)象,但是它們能夠形成場(chǎng)景中對(duì)象之間空間關(guān)系的某種隱式表示(比如向量表示),并將這些表示用于視覺導(dǎo)航等任務(wù)(BBD、BECCA、DAC、MDB、SASE)
4.3模擬視覺(Simulated vision)
從圖2可以明顯看出,大多數(shù)模擬只支持視覺處理的后期階段。最簡(jiǎn)單的模擬是由物體填充的二維網(wǎng)格,例如ERE和PR使用的NASA TileWorld、GLAIR agents使用的Wumpus World、Ariadne agents使用的二維迷宮和CLARION social agents設(shè)計(jì)的部落模擬。網(wǎng)格環(huán)境中的代理通常只能看到有限的周圍環(huán)境,每個(gè)方向只能看到幾個(gè)單元格。Blocks world是另一個(gè)經(jīng)典領(lǐng)域,其一般任務(wù)是構(gòu)建各種形狀和顏色的塊堆棧(ACT-R、ICARUS、MIDCA。
盡管它們的復(fù)雜性和目的不同,不同的模擬通常提供關(guān)于環(huán)境的相同類型的數(shù)據(jù):對(duì)象、它們的屬性(顏色、形狀、標(biāo)簽等)、代理本身的位置和屬性、對(duì)象和環(huán)境因素之間的空間關(guān)系(例如天氣和風(fēng)向)。這種模擬主要用作可視化工具,與直接輸入的數(shù)據(jù)相差不大,因?yàn)閹缀醪恍枰魏胃泄偬幚?。更高?jí)的模擬將場(chǎng)景表示為具有角點(diǎn)顏色和三維坐標(biāo)的多邊形,這些角點(diǎn)必須進(jìn)一步處理以識(shí)別對(duì)象(Novamente)。否則,3D模擬的視覺真實(shí)性主要是為了美學(xué)和感官,因?yàn)樾畔⑹侵苯右苑?hào)形式提供的(例如CoJACK,Pogamut)。
如前所述,圖2并不反映個(gè)體體系的環(huán)境或能力的復(fù)雜性差異。然而,在體現(xiàn)認(rèn)知結(jié)構(gòu)的環(huán)境之間的大小和真實(shí)性。例如,ATLANTIS控制的行星漫游者在戶外巖石地形中進(jìn)行越野導(dǎo)航。銷售機(jī)器人Gualzru(CORTEX)在一個(gè)滿是人的大房間里移動(dòng),iCub(MACsi)從桌子上識(shí)別并撿起各種玩具。另一方面,簡(jiǎn)單即沒有障礙的環(huán)境也被用于認(rèn)知結(jié)構(gòu)研究(BECCA,MDB)。此外,顏色編碼對(duì)象是簡(jiǎn)化視覺處理的常用方法。例如,ADAPT跟蹤一個(gè)紅色在桌子上滾動(dòng)的球和DAC將自己朝向標(biāo)記有不同顏色的目標(biāo)。此外,大多體系的應(yīng)用只能識(shí)別少數(shù)不同的對(duì)象類別。只有Leabra能夠區(qū)分幾十個(gè)對(duì)象類別。隨著OpenCV、Cloud Point Library或Kinect API等可用軟件工具包的普及,可視化處理的質(zhì)量大大提高。但在試圖建立通用的生物學(xué)意義上的視覺系統(tǒng)模型,并沒有取得太多進(jìn)展。目前,應(yīng)用僅限于受控環(huán)境。
4.4聽覺(Audition)
聽覺是認(rèn)知體系中一種常見的模態(tài),因?yàn)檎Z音命令常常是用于指導(dǎo)智能系統(tǒng)或與之通信。由于聽覺模態(tài)是純功能性的,許多體系結(jié)構(gòu)使用可用的語音到文本軟件而不是開發(fā)聽覺模型。為數(shù)不多的進(jìn)行了聽覺感知建模的體系包括了ACT-R、SPA和EPIC。例如,ARTWORD和ARTSTREAM被用來研究音位整合和音源隔離(雞尾酒會(huì)問題)?;贏CT-R發(fā)展了一個(gè)音樂解釋模型。
使用專用軟件進(jìn)行語音處理和通信有助于實(shí)現(xiàn)復(fù)雜性和現(xiàn)實(shí)主義。例如,在機(jī)器人應(yīng)用中,它允許銷售機(jī)器人編寫腳本在擁擠的房間里與人互動(dòng)(CORTEX)或?qū)υ捰⒄Z的子集(CoSy)。一個(gè)更高級(jí)的應(yīng)用包括使用語音識(shí)別來完成這個(gè)任務(wù)通過電話向公共圖書館訂購(gòu)書籍(FORR)。使用現(xiàn)成語音的其他系統(tǒng)處理軟件包括PolyScheme和ISAC。在選擇的體系中,大部分工作都是針對(duì)自然語言處理,即語言和語音所承載的語義信息,很少有人注意到據(jù)情感內(nèi)容(如響度、語速和語調(diào))。在這個(gè)方向上的一些嘗試都是社會(huì)機(jī)器人。例如,社交機(jī)器人Kismet不明白人們?cè)谡f什么,但它可以根據(jù)演講的韻律輪廓來確定贊同、禁止或安慰。這個(gè)Ymir體系結(jié)構(gòu)還具有韻律分析器和基于語法的語音識(shí)別器,可以理解100個(gè)單詞的有限詞匯。甚至聲音本身也可以作為線索,例如,BBD機(jī)器人可以將自己定向到一個(gè)響亮的聲音源。
4.5符號(hào)輸入(Symbolic input)
符號(hào)輸入結(jié)合了幾種不同于物理傳感和仿真模擬的輸入,包括了文本命令、數(shù)據(jù)以及通過GUI的輸入。文本是用于執(zhí)行規(guī)劃和邏輯推理任務(wù)的典型輸入形式(例如:NARS , OSCAR , MAX , Homer )。文本命令通常是根據(jù)體系結(jié)構(gòu)中使用的基元謂詞編寫的,因此不需要額外的解析。
4.6 多模態(tài)感知
在前面各節(jié)中,單獨(dú)考慮了各種的感知模式。然而,在現(xiàn)實(shí)中人腦從不同的感官接收到源源不斷的信息流,并將其整合成一個(gè)關(guān)聯(lián)的世界表征。認(rèn)知結(jié)構(gòu)也是如此,因?yàn)榻话氲恼J(rèn)知結(jié)構(gòu)有兩種及以上不同的感知模式(圖1)。并非所有這些模式可能出現(xiàn)在一個(gè)單一的體系中,大多數(shù)體系同時(shí)使用兩種不同的模式,例如視覺和聽覺、視覺和符號(hào)輸入或視覺和距離傳感器。除了少數(shù)例外,這些體系結(jié)構(gòu)基本上執(zhí)行了認(rèn)知科學(xué)中的特征集成或機(jī)器人學(xué)中的傳感器數(shù)據(jù)融合。顯然,可以使用不同的傳感器,而不必顯式地組合它們的輸出。
多感知通過互補(bǔ)和冗余提高感知的穩(wěn)健性,但在實(shí)踐中,使用許多不同的傳感器會(huì)帶來許多挑戰(zhàn),例如不完整或虛假或沖突的數(shù)據(jù)、具有不同屬性的數(shù)據(jù)(例如維度或值范圍)、對(duì)數(shù)據(jù)對(duì)齊和關(guān)聯(lián)的需要等。機(jī)器人研究領(lǐng)域?qū)@些實(shí)際問題進(jìn)行了深入的研究,但是還沒有提出通用的解決方案。每個(gè)解決方案都必須為特定的應(yīng)用程序定制,這是大多數(shù)認(rèn)知架構(gòu)采用的一種普遍做法。不幸的是,文獻(xiàn)中很少有技術(shù)信息來確定所使用的確切技術(shù),并將它們與已建立的分類法聯(lián)系起來。
總的來說,傳感器集成的特定實(shí)現(xiàn)依賴于用于推理和任務(wù)的知識(shí)表示。在典型的具有符號(hào)推理的體系結(jié)構(gòu)中,來自不同傳感器的數(shù)據(jù)被獨(dú)立地處理,并映射到以代理為中心的3D地圖上,該地圖可用于導(dǎo)航(CaRACAS , CoSy)。在社會(huì)機(jī)器人的應(yīng)用中,世界的表現(xiàn)形式可以是一個(gè)圍繞著主體的自我球體,它包含以自我為中心的坐標(biāo)和視覺檢測(cè)對(duì)象的屬性,這些都與通過三角測(cè)量確定的聲音位置相關(guān)聯(lián)(ISAC,MACsi)。
RCS,一個(gè)具有層次結(jié)構(gòu)的模型,在每個(gè)層次上都有一個(gè)具有相應(yīng)世界表示的感知處理模塊(例如:像素圖、3D模型、狀態(tài)表等)。有些體系隱式地執(zhí)行數(shù)據(jù)關(guān)聯(lián)和對(duì)齊,即傳感器數(shù)據(jù)和特征提?。ɡ?,來自攝像機(jī)的物體坐標(biāo)和來自激光的障礙物距離)是獨(dú)立進(jìn)行的。然后將提取的信息直接添加到工作內(nèi)存。任何模棱兩可和不一致都可以通過高階推理過程來解決。這是分布式體系結(jié)構(gòu)中的一種常見方法,其中獨(dú)立模塊同時(shí)為實(shí)現(xiàn)一個(gè)共同目標(biāo)而工作(例如CERACRANIUM、Polyscheme、RoboCog、Ymir和LIDA)。
在許多受生物啟發(fā)的體系中,不同傳感器的讀數(shù)之間的關(guān)聯(lián)被學(xué)習(xí)。例如,DAC使用Hebbian學(xué)習(xí)來建立數(shù)據(jù)對(duì)齊,以便將不同感知模式的神經(jīng)表示映射到一個(gè)共同的框架,模擬大腦上丘的功能。ART通過神經(jīng)融合(ARTMAP網(wǎng)絡(luò))將視覺和超聲波感官信息集成到移動(dòng)機(jī)器人導(dǎo)航中。同樣,MDB使用神經(jīng)網(wǎng)絡(luò)從傳感器輸入學(xué)習(xí)世界模型,并使用遺傳算法調(diào)整網(wǎng)絡(luò)參數(shù)。
目前為止提到的所有方法都有一些相似的傳感集成,因?yàn)槎际褂每臻g和時(shí)間的接近或?qū)W習(xí)來消除多模態(tài)數(shù)據(jù)的歧義。但總的來說,只有很少的體系在感知層面上追求生物逼真度。唯一的一個(gè)在生物學(xué)上看似合理的感知集成模型是用基于大腦的設(shè)備(BBD)體系,被稱為Darwin XI的具體神經(jīng)模型是用來研究多感覺信息(來自觸摸傳感器、激光、相機(jī)和磁羅盤)的整合和在迷宮導(dǎo)航中的海馬體[163]。Darwin XI的神經(jīng)網(wǎng)絡(luò)由大約80000個(gè)神經(jīng)元和120萬個(gè)突觸組成,并模擬50個(gè)神經(jīng)區(qū)域。在損傷研究中,通過去除一個(gè)或多個(gè)感覺輸入并重新映射感覺神經(jīng)元單元,證明了系統(tǒng)的魯棒性。
一般來說,很多認(rèn)知體系在很大程度上忽略了跨模態(tài)交互作用。這些體系,包括面向生物和面向認(rèn)知的,在處理不同的感知模式時(shí)通常采用模塊化的方法。同時(shí),在過去幾十年中進(jìn)行的許多心理和神經(jīng)成像實(shí)驗(yàn)表明,不同的感知相互影響。例如,視覺改變聽覺處理,反之亦然。然而,據(jù)我們所知,一些仿生體系,如上文提到的BBD,可能代表跨模態(tài)效應(yīng),這個(gè)問題還有待調(diào)研。