近年來,人工智能技術水平不斷提高,應用服務全方位加速落地,對促進經(jīng)濟發(fā)展、提高管理效率、改善生活質量具有關鍵作用。國務院在2017年印發(fā)的《新一代人工智能發(fā)展規(guī)劃》中明確提出,加快智能終端核心技術和產品研發(fā),發(fā)展新一代智能手機、車載終端、可穿戴設備等產品形態(tài)和應用服務,在2020年3月人工智能又被列為新基建重點發(fā)展領域之一。當前,人工智能從計算機視覺、自然語言處理、語音處理等維度全方面推進智能手機、智慧家居、智能車載、智能可穿戴、智能機器人等領域移動終端的發(fā)展,據(jù)IDC預測,2020年中國將有接近1億部5G智能終端出貨,人工智能賦能移動終端進入高速發(fā)展期。
人工智能關鍵技術發(fā)展態(tài)勢良好
人工智能技術迎來第三次浪潮,深度學習技術在計算機視覺、自然語言處理、語音識別等研究領域相繼取得突破性進展,在圖像分類識別準確率、語音合成自然度等方面已超過人類平均水平,推動人工智能從實驗室走向商業(yè)化,賦能移動終端實現(xiàn)智能化、多樣化、個性化。
計算機視覺技術已相對成熟,深度學習模型壓縮推動移動智能終端發(fā)展。計算機視覺技術根據(jù)業(yè)務場景可分為圖像分類、目標檢測、行為檢測、語義分割、三維處理、圖像生成、視頻分類等細分領域,在2012年Hinton團隊提出深度神經(jīng)網(wǎng)絡模型AlexNet后,VGG、GoogLeNet、ResNet等模型不斷提高圖像識別準確率,ImageNet分類top- 5準確率已超過人眼識別水平。近年來,我國在計算機視覺技術創(chuàng)新方面占據(jù)全球主導地位,在2019COCO常見物體識別圖像識別挑戰(zhàn)賽中,曠視拿下物體檢測、人體關鍵點和全景分割三項第一,獲得COCO三連冠,在2019圖像識別競賽WebVision中,阿里AI以82.54%的識別準確率獲得冠軍,將萬物識別領域的歷史紀錄提升了3個百分點。同時,面對模型存儲和預測速度的博弈問題,斯坦福、谷歌、曠視等企業(yè)相繼提出SqueezeNet、 MobileNet、 Shuf-fleNet、Xception等輕量化模型,設計高效的網(wǎng)絡計算方式,在網(wǎng)絡參數(shù)減少的同時減少性能損失,加速人工智能模型在移動終端的部署應用。
自然語言處理技術在行業(yè)中應用廣泛,覆蓋文本翻譯、情感分析、意圖分析、智能問答、智能對話、敏感詞檢索等場景。隨著人工智能進入第三次發(fā)展浪潮,RNN、GRU、LSTM等模型相繼出現(xiàn),在機器翻譯、問答系統(tǒng)、閱讀理解等領域取得一定進展,谷歌于2018年10月提出BERT預訓練語言模型,創(chuàng)新提出了有效的無監(jiān)督預訓練任務,從而使得模型能夠從無標注語料中獲得通用的語言建模能力,在其基礎上拓展的XLNET、RoBERTa、ALBERT、BioBERT等模型分別有不同維度的提升。我國的百度、騰訊、阿里等企業(yè)成為推動自然語言處理技術發(fā)展的主力,提出了包括基于對抗學習的降噪技術、多領域對話行為與文本同步生成、關系型圖注意力網(wǎng)絡、利用結構化信息進行知識蒸餾等創(chuàng)新技術和理念,但科技、醫(yī)療等領域仍需組織專家建立專業(yè)知識圖譜來提高識別準確率。
語音處理技術進入實質生產的高峰期,語音合成等技術效果超過人類平均水平,但在方言語種識別、聲紋識別、降噪識別等技術領域仍有較大突破空間。智能語音處理技術包括聲紋識別、方言語種識別、語音分離、關鍵詞識別、語音轉寫、語音合成等業(yè)務類型,當前基于Attention的端到端語音識別成為語音技術研究主流,通過上下文來理解詞句,解決了傳統(tǒng)語音識別方案中各部分任務獨立而無法聯(lián)合優(yōu)化的問題。谷歌推出Tacotron和WaveNet語音合成技術,實現(xiàn)端到端語音合成,進一步提升語音的自然程度,同時利用對抗網(wǎng)絡GAN減小噪音環(huán)境語音數(shù)據(jù)和真實訓練數(shù)據(jù)的分布差異、提高聲學模型的噪聲健壯性成為熱點。我國企業(yè)語音處理技術水平位于全球前列,在語音分離識別領域,科大訊飛在國際多通道語音分離和識別大賽CHiME-6上提出的IBF-SS Model將錯誤率降低到30.5%;在方言語種識別領域,出門問問在ASRU2019中英混雜語音識別挑戰(zhàn)賽中獲得雙賽道第一名;在語音合成領域,科大訊飛在Blizzard Challenge2019國際語音合成大賽中自然度得分達到4.5,相似度得分達到4.1,超過人類平均水平。
AI與移動終端融合應用場景不斷豐富
智能手機中AI應用包括基礎應用和上層應用,其中識別認證、AI攝影、語音助手等基礎應用技術較為成熟,但上層應用尚未與人工智能完全融合,功能相對有限。當前“AI﹢手機”應用生態(tài)較為成熟,但還不是“AI手機”,在基礎應用領域,以指紋識別和3D人臉識別為主的認證技術成為發(fā)展趨勢,Transparency Market Research分析公司預計2020年全球生物識別市場規(guī)模達到233億美元,AI賦能人像識別提供HDR高動態(tài)、美顏特效等功能,并可以實現(xiàn)智能拼接、高倍優(yōu)化;IDC報告顯示,手機中人像美顏應用滲透率達90%,極大推動了智能手機的升級賦能,同時語音助手成為當前主流智能手機的標配;Strategy Analytics預測到2023年,全球90%的智能手機會安裝語音助手。在上層應用領域,依托App布局的手機應用與AI處于初級融合階段,人臉識別、智能推薦、語音識別等技術廣泛應用于音頻制播、新聞娛樂、通信社交、購物出行等場景,同時各企業(yè)推出聯(lián)邦學習以保護用戶數(shù)據(jù)隱私,解決數(shù)據(jù)權限混亂的問題,但在醫(yī)療健康、安全管理、教育學習、VR/AR等應用領域仍有較長探索期,例如當前醫(yī)療App以病例問詢、掛號買藥為主,手機超聲波分析、尿液血液分析等技術仍在研發(fā)期。
智能機器人覆蓋全場景應用,2019年全球機器人市場規(guī)模達到294億美元,但整體仍處于初級發(fā)展階段。在工業(yè)機器人方面,亞馬遜收購Canvas機器人公司,運用攝像頭識別并躲避障礙物,創(chuàng)新奇智和??低暦謩e推出缺陷檢測機器人,基于計算機視覺技術識別生產良品率。在服務機器人方面,優(yōu)必選悟空機器人搭配攝像頭等設備,可實現(xiàn)人臉識別、語音識別和生成功能。以日本等國家為主研發(fā)人形家庭機器人,可提供洗衣、做飯等服務。同時,疫情加速了醫(yī)療服務和公共服務機器人落地應用,基于人工智能算法,鈦米機器人可識別房間溫度、濕度、PM2.5以及人員情況,測算消毒面積、時間,制定整體消毒方案;京東打造的智能物流配送機器人,通過圖像識別和路徑規(guī)劃實現(xiàn)自主無人運輸,預計2020年投入運營上百臺機器人。
預計2023年全球智能家居市場規(guī)模達到1570億美元,搭建AIoT云平臺提供整體解決方案成為布局重點。智能音箱成為控制智能家居設備的入口,IDC報告顯示2019年中國智能音箱市場出貨量接近4600萬臺,同比增長109.7%,智能音箱通過語音處理技術提供搜索查詢、天氣交通問詢等服務,并利用關鍵詞識別等語音識別技術實現(xiàn)對房屋智能設備的控制,聲紋識別、多語言識別、連續(xù)識別成為向智能化2.0進階的必要技術。當前智能門鎖、家庭監(jiān)控、智能電視等家居設備的AI功能尚待完善,建立個性化模型進行服務成為突破方向。同時面臨家庭設備類型多樣的問題,華潤置業(yè)、萬達與萬科分別與小米、TCL、阿里云IoT合作,整體打造智能家居平臺,提供集安防、能源、娛樂于一體的全屋智能系統(tǒng)。
科技巨頭、語音處理企業(yè)、計算機視覺企業(yè)依據(jù)自身人工智能技術優(yōu)勢,針對安全駕駛、智能導航、汽車娛樂等場景推出智能解決方案。在安全駕駛領域,百度開發(fā)小度車載OS,可基于人臉識別實現(xiàn)安全登錄、疲勞檢測,商湯利用人臉識別和手勢識別技術進行身份認證并檢測駕駛員疲勞狀態(tài)、注意力和危險行為。在智能導航領域,騰訊隨行采用語音處理技術實現(xiàn)導航交互,并識別周圍場景及天氣情況以提供智能推薦服務,科大訊飛研發(fā)的飛魚系統(tǒng)搭配上下文理解、多輪對話、聲紋識別等技術實現(xiàn)智能導航。在汽車娛樂領域,阿里通過阿里云ET語音處理技術實現(xiàn)關鍵詞識別和音頻播放,商湯智能車艙內載手勢識別技術可以讓用戶進行音量調節(jié)、歌曲切換,寶馬與天貓精靈合作提供音樂播放、語音對話和信息查詢服務。