自2012年以來,隨著欣頓(Hinton)、樂昆 (LeCun)和吳恩達(dá)(Andrew Ng)對深度學(xué)習(xí)的研究,使其在機(jī)器學(xué)習(xí)方面的應(yīng)用取得了顯著成就,深度學(xué)習(xí)成為計(jì)算機(jī)科學(xué)的一個(gè)新興領(lǐng)域。谷歌、臉譜、百度、騰訊等互聯(lián)網(wǎng)公司紛紛投入巨資研究深度學(xué)習(xí),并興起了基于深度學(xué)習(xí)的創(chuàng)業(yè)大潮。然而,對深度學(xué)習(xí)原理的困惑。對其應(yīng)用的質(zhì)疑也一直存在。在ImageNet目標(biāo)檢測中,人臉識別率已達(dá)99.5%,甚至超越人眼的識別準(zhǔn)確率,在此情況下,深度學(xué)習(xí)何以為繼?又該如何提升?深度學(xué)習(xí)是處于熱潮的初始?還是強(qiáng)弩之末?是一直所向披靡?還是很快走向終點(diǎn)?作為沉寂了20余年的神經(jīng)網(wǎng)絡(luò)領(lǐng)域,深度學(xué)習(xí)到底還能走多遠(yuǎn)?
神經(jīng)網(wǎng)絡(luò)與人腦的區(qū)別:
目前,深度學(xué)習(xí)在幾個(gè)主要領(lǐng)域都獲得了突破:在語音識別領(lǐng)域,深度學(xué)習(xí)用深層模型替換聲學(xué)模型中的混合高斯模型,錯(cuò)誤率降低了30%;在圖像識別領(lǐng)域,通過構(gòu)造深度卷積神經(jīng)網(wǎng)絡(luò),將Top5錯(cuò)誤率由26%降低至15%,又通過加大加深網(wǎng)絡(luò)結(jié)構(gòu),進(jìn)一步降低到11%;在自然語言處理領(lǐng)域,深度學(xué)習(xí)與其他方法水平相當(dāng),但免去了繁瑣的特征提取步驟。深度學(xué)習(xí)是最接近人類大腦的智能學(xué)習(xí)方法。
然而,與人腦相比,深度學(xué)習(xí)目前在處理問題的能力上還有不小的差距。當(dāng)前的深層網(wǎng)絡(luò)在結(jié)構(gòu)、功能、機(jī)制上都與人腦有較大差距。從結(jié)構(gòu)上看,人腦有1000億左右的神經(jīng)元,這些神經(jīng)元形成了1000到1萬層的連接。而目前的深層網(wǎng)絡(luò)通常只有幾百萬個(gè)神經(jīng)元,層數(shù)不超過10,因此深層網(wǎng)絡(luò)的規(guī)模遠(yuǎn)小于人腦。另外,人腦是高度結(jié)構(gòu)化的,每一個(gè)部分執(zhí)行一個(gè)特定的功能,而且不同部分之間會(huì)協(xié)作,但深層網(wǎng)絡(luò)在高度結(jié)構(gòu)化方面目前還沒有太多考慮。從功能上看,人腦善于處理各種問題,能夠完成復(fù)雜任務(wù)。而當(dāng)前深層網(wǎng)絡(luò)的功能單一,基本是用處理識別與分類問題,沒有綜合處理問題的能力。從機(jī)制上看,人腦的數(shù)據(jù)存儲(chǔ)與處理機(jī)制更為復(fù)雜。人腦中的數(shù)據(jù)以知識的形式組織起來,存儲(chǔ)與應(yīng)用密切相聯(lián),而當(dāng)前計(jì)算機(jī)的數(shù)據(jù)存儲(chǔ)方式遠(yuǎn)遠(yuǎn)沒有做到這一點(diǎn)。人的感知器官并非感知器,而是依靠大量的反饋搜尋有用的信息。另外人腦具有知識反饋機(jī)制,在深層網(wǎng)絡(luò)中并未得到體現(xiàn)。而研究者的研究對象從一個(gè)函數(shù)變成了一個(gè)過程,難度驟然增大。
人腦的學(xué)習(xí)能力是通過先天進(jìn)化和后天學(xué)習(xí)得到的。先天進(jìn)化可以理解為物種在長時(shí)間學(xué)習(xí)大量知識后演變得到的結(jié)果,后天學(xué)習(xí)包括對新接觸知識的總結(jié)與演繹。而深度學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu)是由人來設(shè)計(jì)的,網(wǎng)絡(luò)參數(shù)是從訓(xùn)練數(shù)據(jù)集中學(xué)習(xí)得到的。就數(shù)據(jù)量而言,人腦在先天進(jìn)化與后天學(xué)習(xí)中所接觸的數(shù)據(jù)量遠(yuǎn)大于深層網(wǎng)絡(luò)。
深度學(xué)習(xí)的局限性:
隨著大數(shù)據(jù)的出現(xiàn)和大規(guī)模計(jì)算能力的提升,深度學(xué)習(xí)已然成為非?;钴S的計(jì)算機(jī)研究領(lǐng)域。然而,在不斷的研究中,深度學(xué)習(xí)的局限性也日益突顯。
缺乏理論支持,對于深度學(xué)習(xí)架構(gòu),存在一系列的疑問:卷積神經(jīng)網(wǎng)絡(luò)為什么是一個(gè)好的架構(gòu)?深度學(xué)習(xí)的結(jié)構(gòu)需要多少隱層?在一個(gè)大的卷積網(wǎng)絡(luò)中到底需要多少有效的參數(shù)?雖然深度學(xué)習(xí)在很多實(shí)際應(yīng)用中取得了突出的成效,但這些問題一直困擾著深度學(xué)習(xí)的研究人員。深度學(xué)習(xí)方法常常被視為黑盒,大多數(shù)的結(jié)論都由經(jīng)驗(yàn)而非理論來確認(rèn)。不論是為了構(gòu)建更好的深度學(xué)習(xí)系統(tǒng),還是為了提供更好的解釋,深度學(xué)習(xí)都需要更完善的理論支撐。
缺乏短時(shí)記憶能力,人類大腦有驚人的記憶功能,不僅能夠識別個(gè)體案例,也能分析輸入信息之間的整體邏輯序列。這些信息序列包含有大量的內(nèi)容,信息彼此間有著復(fù)雜的時(shí)間關(guān)聯(lián)性。例如在自然語言理解的許多任務(wù)(如問答系統(tǒng))中需要一種方法來臨時(shí)存儲(chǔ)分隔的片段,正確解釋視頻中的事件,并能夠回答有關(guān)問題,需要記住視頻中發(fā)生事件的抽象表示。而包括遞歸神經(jīng)網(wǎng)絡(luò)在內(nèi)的深度學(xué)習(xí)系統(tǒng),卻不能很好地存儲(chǔ)多個(gè)時(shí)間序列上的記憶。近年來,研究人員提出了在神經(jīng)網(wǎng)絡(luò)中增加獨(dú)立的記憶模塊,如長短時(shí)記憶(Long Short-Term Memory,LSTM)、記憶網(wǎng)絡(luò)(memory networks)、神經(jīng)圖靈機(jī)(neural Turing machines)和Stack增強(qiáng)遞歸神經(jīng)網(wǎng)絡(luò)(stack-augmented recurrent neural network),雖然有一定的成果,但仍需擴(kuò)展更多新思路。
缺乏執(zhí)行無監(jiān)督學(xué)習(xí)的能力,無監(jiān)督學(xué)習(xí)在人類和動(dòng)物的學(xué)習(xí)中占據(jù)主導(dǎo)地位,我們通過觀察能夠發(fā)現(xiàn)世界的內(nèi)在結(jié)構(gòu),而不是被告知每一個(gè)客觀事物的名稱。雖然無監(jiān)督學(xué)習(xí)可以幫助特定的深度網(wǎng)絡(luò)進(jìn)行“預(yù)訓(xùn)練”,但最終能夠應(yīng)用于實(shí)踐的絕大部分深度學(xué)習(xí)方法都是純粹的有監(jiān)督學(xué)習(xí)。因?yàn)闊o標(biāo)記數(shù)據(jù)遠(yuǎn)遠(yuǎn)多于標(biāo)記數(shù)據(jù),因此無監(jiān)督學(xué)習(xí)具有巨大的研究潛力。找到合適的無監(jiān)督學(xué)習(xí)算法,對深度學(xué)習(xí)的發(fā)展至關(guān)重要。
深度學(xué)習(xí)未來的發(fā)展方向:
深度學(xué)習(xí)在人臉識別、目標(biāo)檢測等領(lǐng)域都取得了很大進(jìn)展,識別準(zhǔn)確率甚至超過人類,但這并不代表深度學(xué)習(xí)的發(fā)展已走到盡頭。以下幾個(gè)方面的研究對深度學(xué)習(xí)的繼續(xù)發(fā)展具有重大意義。
1. 開發(fā)深度學(xué)習(xí)的演繹能力:人類在學(xué)習(xí)的過程中,除了對已有知識的歸納總結(jié),還伴隨對知識的演繹推理,如對定理進(jìn)行推論等。當(dāng)前的深度學(xué)習(xí)還停留在對數(shù)據(jù)的歸納上。如果深層網(wǎng)絡(luò)對數(shù)據(jù)的歸納能力達(dá)到飽和,提升其演繹推理能力將是深度學(xué)習(xí)繼續(xù)發(fā)展的突破口。
2. 提升綜合處理問題的能力:當(dāng)前的深度學(xué)習(xí)主要用于處理單一問題,但一套模型往往不能通用于多個(gè)問題,如人臉識別、語音識別等。但人腦可以實(shí)現(xiàn)這一功能,比如視覺皮層可以輔助聽覺等。因此,提升深層網(wǎng)絡(luò)綜合處理問題的能力對于人工智能的實(shí)現(xiàn)具有重要意義。
3. 減少對硬件的依賴:隨著GPU及高性能并行計(jì)算的發(fā)展,硬件設(shè)備的數(shù)據(jù)處理能力得到巨大提升。但過度依賴硬件會(huì)造成深度學(xué)習(xí)偏離人的思維,而陷入計(jì)算機(jī)思維。與計(jì)算機(jī)相比,人腦的計(jì)算速度極慢,但功耗極低,且能夠完成復(fù)雜的任務(wù)。學(xué)習(xí)人腦,使用相對弱的硬件來實(shí)現(xiàn)強(qiáng)大的功能,是使深度學(xué)習(xí)向人工智能發(fā)展的關(guān)鍵。
綜上所述,深度學(xué)習(xí)通過建立類似于人腦的分層模型結(jié)構(gòu),對輸入數(shù)據(jù)逐層提取從底層到高層的特征,從而建立從底層信號到高層語義的映射關(guān)系。但在規(guī)模、功能、機(jī)制、設(shè)計(jì)等方面,當(dāng)前深度學(xué)習(xí)所采用的深層網(wǎng)絡(luò)與人腦存在很大差異。雖然深度學(xué)習(xí)在很多方面取得了巨大成功,但仍存在一些缺陷。當(dāng)前的深度學(xué)習(xí)框架缺乏理論支撐,不能很好地存儲(chǔ)時(shí)間序列上的記憶,缺少對無標(biāo)記數(shù)據(jù)的學(xué)習(xí)能力。這些缺陷限制了深度學(xué)習(xí)的進(jìn)一步發(fā)展。深度學(xué)習(xí)作為計(jì)算機(jī)科學(xué)的新興領(lǐng)域,還有很長的路要走。深度學(xué)習(xí)掀起了機(jī)器學(xué)習(xí)的新浪潮,在語音圖像的智能識別與理解等方面取得了很大進(jìn)展。但深度學(xué)習(xí)還面臨著一系列難題,在對知識的演繹能力、對問題的綜合處理能力等方面還有很大的提升空間,在深層網(wǎng)絡(luò)的設(shè)計(jì)規(guī)則上也需要進(jìn)一步探索。