老熟妇仑乱一区二区视頻,欧美老妇与禽交

真人主播危機？虛擬主播成市場新晉“網(wǎng)紅”

在今年天貓雙十一預售日，李佳琦再次刷新了直播記錄，39款商品秒光，4個多小時累積突破3000萬圍觀。長達4小時的超負荷直播，也讓很多企業(yè)想到“虛擬主播”代替真人主播這一新的發(fā)展機遇。

2018年，搜狗和新華社聯(lián)合推出的全球首個AI合成主播的誕生，掀開了“AI＋虛擬主播”的神秘面紗，一時間，嗅到“科技紅利”的市場各方開始蜂擁而上。2019央視網(wǎng)絡春晚推出AI虛擬主持人團隊，今年兩會期間，新華社推出AI虛擬主播“新小萌”，人民日報推出AI虛擬主播“小晴”?；乜催@兩年市場熱潮，總讓人有一種錯覺，仿佛回到了當初世界首個虛擬主持人誕生時。不過，相比當初“曇花一現(xiàn)”的虛擬主播，這次新增的“AI”元素，或許會為市場帶來更多的機會。

虛擬主持的誕生

真人主播危機？虛擬主播成市場新晉“網(wǎng)紅”

自工業(yè)革命起，以機器代替手工勞動就成了人類努力的方向。隨后，第一臺計算機的發(fā)明，讓機器開始升級為“人工智能”。步入互聯(lián)網(wǎng)時代后，“人工智能”更是加快了替代手工勞動的步伐，并從基礎(chǔ)的體力勞動層面漸漸轉(zhuǎn)向創(chuàng)意、創(chuàng)作層面。在這一時代，更是誕生了諸如曠視科技、商湯科技、依圖科技、云從科技、極鏈科技這樣的優(yōu)質(zhì)初創(chuàng)人工智能企業(yè)。

早在2001年，英國PA New Media公司曾推出世界上第一個虛擬主持人阿娜諾娃，一個只有頭部的動畫，可根據(jù)新聞腳本快速制作視頻，并可24小時持續(xù)播報。此后，日本推出了寺井有紀，中國推出了小龍，美國推出了薇薇安，韓國推出了露西雅，市場上虛擬主播的地位一片欣欣向榮。但阿娜諾娃沒多久就退出了舞臺，曾經(jīng)吹捧過她的媒體紛紛關(guān)閉舊欄目，開設新欄目，換上真人主持，好像阿娜諾娃從未出現(xiàn)過一樣。

直至今日，再回看當年的這波虛擬主持人熱潮，仍有幾點值得反思：

1．技術(shù)的成熟是產(chǎn)品出現(xiàn)的關(guān)鍵，但產(chǎn)品的成熟度如何，是由市場評判的。市場之所以會追捧虛擬主持人，根本目的是為了節(jié)省制作成本，提升制作效率。但早期的虛擬主持人，從整個制作過程來看，成本其實遠超聘請一位專業(yè)真人主持。

2．虛擬主持人具有行業(yè)特殊性，對語音、表情、肢體等都有很高的要求。相比其他行業(yè)，主持人最基本的要求就是口才。也就是說，虛擬主持人要達到與真人主持一樣的口才，語音識別和自然語言處理的準確率都要求極高。顯然在這方面，早期虛擬主持人還沒有這種技術(shù)。其次，要讓虛擬人物播報呈現(xiàn)出自然狀態(tài)，就必須解決口型匹配、表情匹配，乃至肢體動作匹配等問題。最后，在制作播報視頻時，一定要快、穩(wěn)、準。新聞行業(yè)是一個極為注重時效性的行業(yè)，如果制作一個視頻就需要花費幾天乃至幾周的時間，那虛擬主持人取代真人主持顯然是偽命題。

3．虛擬主持人是否一定要像真人，這是在做產(chǎn)品之前必須明確好的方向。早期的虛擬主持人都格外在意“像真人”，似乎這是一條鐵律。這很大程度上，源自在當時環(huán)境下，主持人大多與新聞播報捆綁，像真人才更有可信度。但從長遠發(fā)展來看，“像真人”真的是必須的嗎？

合成技術(shù)原理

其實所謂的“像真人”，不外乎是運用“AI合成”技術(shù)?！疤摂M主播”通過提取真人主播新聞播報視頻中的聲音、唇形、表情動作等特征，運用語音、唇形、表情合成以及深度學習等技術(shù)聯(lián)合建模訓練而成。

該項技術(shù)要能夠?qū)⑺斎氲闹杏⑽奈谋咀詣由上鄳獌?nèi)容的視頻，并確保視頻中音頻和表情、唇動保持自然一致，展現(xiàn)與真人主播無異的信息傳達效果。但在此之前，出現(xiàn)在大眾媒體上的虛擬主播，多半只有聲音，或者匹配一個量身定制的虛擬形象，比如微軟小冰在東方衛(wèi)視擔任天氣預報員就是如此。

要實現(xiàn)這樣的效果，兩大要求缺一不可。其一是高逼真度。要能夠自動生成語音、表情、唇動等信息完全一致的自然視頻，并已達到商用級別。其二是低成本的個性化定制。小數(shù)據(jù)的學習模型，使用少量用戶真實音視頻數(shù)據(jù)，快速遷移生成虛擬的分身模型，快速定制出高逼真度的分身模型。最后，使用時輸入一段文本，即可生成與真人無異的同步音視頻。

除此之外，語音合成引擎和圖像生成引擎也是重要的兩點。在語音合成引擎中，基于用戶少量音頻數(shù)據(jù)，使用語音合成技術(shù)，快速學習用戶音色、韻律、情感等多維度特征，建立輸入文本與輸出音頻信息的關(guān)聯(lián)。

圖像生成引擎，則是使用人臉識別、三維人臉重建、表情建模等技術(shù)對人臉表情動作進行特征學習和建模，建立輸入文本、輸出音頻與輸出視覺信息的關(guān)聯(lián)映射，生成輸出分身視頻。

最后，兩大引擎協(xié)作打磨，最終才能實現(xiàn)“AI合成主播”，能夠逼真模擬人類說話的聲音、嘴唇動作和表情，并將三者自然匹配，做到惟妙惟肖，讓機器以更逼真自然的形象呈現(xiàn)在用戶面前。

小結(jié)：

和真人主播相比，“虛擬主播”能夠不知疲倦地工作24小時，同時還掌握多國語言，大大提升效率、降低成本。甚至寫好文字稿，“ 虛擬主播”就能即可播送了，還不會出現(xiàn)口誤或NG，更是讓個性化內(nèi)容生成的門檻大為降低。娛樂、醫(yī)療健康、教育、法律等多個領(lǐng)域和場景，無一不適用。未來，這項技術(shù)或許在虛擬教師、虛擬醫(yī)生，虛擬客服等需要人類參與的內(nèi)容表達場景，都能發(fā)揮出其價值。