近期中央密集點名“新基建”,備受關(guān)注。人工智能作為新基建核心領(lǐng)域之一,展現(xiàn)出強大成長潛力,將成為產(chǎn)業(yè)數(shù)字化的重要驅(qū)動。乘著東風(fēng),多模態(tài)融合發(fā)展或為人工智能深入拓展場景、實現(xiàn)萬物互聯(lián)提供不竭動力。
近日,由螞蟻金服牽頭制定的“生物特征識別多模態(tài)融合國際標準”正式立項,這一標準的制定,對于多模態(tài)領(lǐng)域發(fā)展與技術(shù)規(guī)范產(chǎn)生了重大影響。
為此,筆者與眼神科技、云從、銀河水滴等多個企業(yè)方,進行了關(guān)于多模態(tài)領(lǐng)域發(fā)展主題的對話。相較于多模態(tài),我們應(yīng)該先了解單模態(tài)。在對話中筆者了解到,對于指紋識別、人臉識別、虹膜識別、指靜脈識別等每一種生物識別技術(shù),通過每一種算法用一個傳感器去解決一個問題的模式,即為單模態(tài)。
后來,隨著AI發(fā)展和信息化的迭代,不同信息從不同方位、不同傳感器一擁而入,單一識別技術(shù)已經(jīng)很難滿足這樣的發(fā)展,在這種情況下,多模態(tài)技術(shù)應(yīng)場景而生。但多模態(tài)并不是單模態(tài)的簡單疊加或組合替代,而是基于數(shù)據(jù)融合的算法融合、并依托平臺決策為支撐,是單模態(tài)生物識別技術(shù)的重大突破,也是識別技術(shù)的未來發(fā)展方向。
目前,多模態(tài)技術(shù)主要應(yīng)用于線上娛樂、身份認證、醫(yī)療健康、智慧金融、安防、教育、軍工、園區(qū)等領(lǐng)域。
應(yīng)用驅(qū)動下,多模態(tài)成AI行業(yè)發(fā)展新風(fēng)向
多模態(tài)從2018年開始成為技術(shù)行業(yè)的焦點。那時,很多國內(nèi)大企業(yè),如華為、騰訊、百度、阿里等公司,都開始逐漸把目光瞄向多模態(tài);很多創(chuàng)業(yè)公司,如眼神科技、云從、依圖、銀河水滴等也在思考這個方向性的發(fā)展問題。
騰訊AI Lab的博士俞棟曾說“多模態(tài)是邁向通用人工智能的重要方向”,通用人工智能是弱人工智能時代需要走的一個方向,弱人工智能是“見多識廣”,解決的是感知問題。
在眼神科技創(chuàng)始人兼CEO周軍看來:“通用人工智能具有幾個屬性:自學(xué)習(xí)、增量學(xué)習(xí)、增強學(xué)習(xí),這些內(nèi)容結(jié)合在一塊,是強人工智能。從弱人工智能到強人工智能的奇點,截止目前還沒有突破?!薄耙娚僦唷薄ⅰ安灰姸A(yù)知”的強人工智能時代,這是國際前沿人工智能公司一直努力多年的事情,但是技術(shù)遇到了天花板。
據(jù)了解,眼神科技從早期就已經(jīng)完成了指紋識別、人臉識別、虹膜識別技術(shù)的研發(fā),形成基礎(chǔ)算法,其在面向市場推廣中發(fā)現(xiàn),單一技術(shù)決策存在局限,并在應(yīng)用驅(qū)動下推出多模態(tài)融合生物識別技術(shù)?!岸嗄B(tài)融合生物識別可以提升識別精準度,也能在一定程度提升生物識別技術(shù)的場景適應(yīng)性和隱私安全性?!毖凵窨萍急硎?。
簡單來說,模態(tài)就是“感官”,多模態(tài)就是將多種感官融合的方式。云從科技解釋道:“如果把‘模態(tài)’通俗地理解為感官,那么智能音箱就是一臺只具備聽覺模態(tài)的物聯(lián)網(wǎng)設(shè)備,而加載AI分析能力的攝像頭可以視為視覺模態(tài)的物聯(lián)網(wǎng)設(shè)備,把聽覺、視覺甚至更多模態(tài)組合到一起,可誕生多模態(tài)物聯(lián)網(wǎng)”。
與眼神科技、云從科技領(lǐng)域略有不同的步態(tài)識別企業(yè)銀河水滴表示,“多模態(tài)技術(shù)在我國早已得到廣泛應(yīng)用,如在公共安防領(lǐng)域。另外,指紋和人臉識別等技術(shù)的配合使用也比較成熟,目前正在向更深入更廣泛的程度邁進,在這個過程中,步態(tài)識別技術(shù)越來越受到重視”。
據(jù)悉,步態(tài)識別是一種新興的生物特征識別技術(shù),相較于其他識別方式,步態(tài)識別的識別距離更遠。例如,普通高清攝像機下識別距離最遠可達50米,屬于非受控識別,無需識別對象主動配合。步態(tài)識別是由體型、頭型、肌肉力量、運動神經(jīng)靈敏度、走路姿態(tài)等共同決定,局部變化并不會影響識別結(jié)果。
因此,步態(tài)識別技術(shù)可以有效彌補其他識別技術(shù)的不足,比如識別距離普遍較短、需要主動配合或接觸等問題。結(jié)合了步態(tài)識別的多模態(tài)技術(shù)將有更廣泛的應(yīng)用前景。
同時,銀河水滴也稱:“每一種信息的來源都可以稱為一種模態(tài)。就AI而言,步態(tài)、人臉、虹膜、指紋、語音等生物特征模態(tài)是機器識別的依據(jù),多模態(tài)識別即是一種結(jié)合以上多種識別技術(shù)的解決方案。任何一種識別方式都有一定的不足,多種模式結(jié)合可以達到更好的效果”。
新基建下,多模態(tài)融合的AI行業(yè)進入快車道
國家新基建政策的頒布,讓AI行業(yè)擁有了更大的發(fā)展空間,加之這次生物特征識別多模態(tài)融合標準的立項,更是讓AI有了更多的想象空間。
新基建實際上是新時代下,可促進物質(zhì)、能量、數(shù)據(jù)更高效產(chǎn)生和流動,使其朝著能夠產(chǎn)生更大價值的地方匯聚,這次新冠疫情已經(jīng)切身感受到基于AI技術(shù)下,新基建所帶來的社會效應(yīng)。
云從科技稱,新基建下AI得到很好應(yīng)用,而多模態(tài)融合是AI技術(shù)發(fā)展必然結(jié)果,因為單點技術(shù)存在瓶頸,無法很好發(fā)揮AI的作用,容易導(dǎo)致部分功能和體驗感缺失。
而在多模態(tài)或AI技術(shù)閉環(huán)的支持下,AI可以在消費端與生產(chǎn)端更好服務(wù)社會?!癆I是‘頭雁’,解決的是問題本身,怎樣讓能力提高,怎么去解決問題。讓AI引領(lǐng)技術(shù)發(fā)展是整個行業(yè),也是云從當前思考的主要問題?!痹茝目萍佳a充道。
在消費者端,最能體現(xiàn)更好、更自然交互的是一位24小時的個人助理,它能知道用戶什么時候想要什么,用戶永遠能得到自己期望的服務(wù)。
在生產(chǎn)者端,人機協(xié)同將能擴展人類專家的能力,比如現(xiàn)在醫(yī)生一天只能診斷10個人,未來也許在AI的幫助下,通過語音、AI診斷、視覺輔助、大數(shù)據(jù)等技術(shù)可以一天診斷1000個人。
云從科技總結(jié)了目前AI設(shè)備技術(shù)閉環(huán)的三種形式:1、感知,包括語音識別、語義理解、多輪對話、NLP、語音精準識別等領(lǐng)等;2、認知,包括自然物體識別、人臉識別、肢體動作識別等;3、決策,包括AI對熱量、紅外捕捉信號、空間信號的閱讀與理解。
眼神科技則向筆者表示:“新基建的重要領(lǐng)域之一就是AI,乘著“新基建”的東風(fēng),AI行業(yè)發(fā)展將加速進入快車道。從這次新冠疫情中可以看到,AI在公共安防、疫情防控、遠程辦公及服務(wù)中發(fā)揮了重要作用”。
此外,中國基礎(chǔ)設(shè)施的“智能化”建設(shè)迫在眉睫,智慧城市、智慧安防、智能醫(yī)療、智慧社區(qū)、智慧教育等基礎(chǔ)設(shè)施智能化建設(shè)進入全面爆發(fā)期,將為AI拓展更多創(chuàng)新應(yīng)用場景和市場空間。在眼神科技看來,“在AI應(yīng)用場景不斷深耕,以及5G、大數(shù)據(jù)、云計算等新興技術(shù)的融合推動下,多模態(tài)融合生物識別是AI未來發(fā)展的必經(jīng)之路”。
不過,目前AI還處于一個初級階段,更為關(guān)注的是更簡單層次的交互。比如語音、人臉識別,這些只是感知階段。而且在信息化時代下,很多場景每天都會產(chǎn)生海量的視頻和圖像數(shù)據(jù),但這些信息并沒有得到很好利用,大量值得挖掘的潛在價值,被使用的也僅是冰山一角。
對此,眼神科技稱,“在實戰(zhàn)應(yīng)用場景會有很多不可控的因素,比如遮擋、光照等,這些會影響生物特征識別技術(shù)的應(yīng)用,行業(yè)需要針對現(xiàn)有實際問題,對各種識別技術(shù)進行不斷的研發(fā)和優(yōu)化算法”。
云從科技也表示,“現(xiàn)在AI僅處于初步發(fā)展階段,解決的是簡單層次的交互,更深層次的多模態(tài)融合交互,目前做得還遠遠不夠,有待繼續(xù)加強”。