微軟研究人員展示了一種令人印象深刻的新型文本轉(zhuǎn)語(yǔ)音人工智能模型,名為Vall-E,它可以只聽聲音幾秒鐘,然后模仿聲音——包括情感語(yǔ)調(diào)和音響效果——說(shuō)出你想說(shuō)的任何話。
這是許多人工智能算法中最新的一種,它們可以利用一個(gè)人的聲音錄音,讓它說(shuō)出這個(gè)人從未說(shuō)過(guò)的單詞和句子——而且它只需要一小段音頻就能推斷出整個(gè)人類的聲音,這是非常了不起的。例如,2017年蒙特利爾大學(xué)的Lyrebird算法需要整整一分鐘的語(yǔ)音來(lái)分析,而Vall-E只需要三秒鐘的音頻片段。
人工智能已經(jīng)接受了大約6萬(wàn)小時(shí)的英語(yǔ)演講訓(xùn)練——似乎主要是通過(guò)有聲讀物解說(shuō)員,研究人員提供了大量樣本,在這些樣本中,Vall-E試圖操縱一系列人類的聲音。有些人在捕捉聲音的本質(zhì)和構(gòu)建聽起來(lái)自然的新句子方面做得非常出色——你很難分辨出哪個(gè)是真實(shí)的聲音,哪個(gè)是合成的。在其他情況下,唯一的漏洞是人工智能將重點(diǎn)放在句子中奇怪的地方。
Vall-E在重新創(chuàng)建原始示例的音頻環(huán)境方面做得特別好。如果樣本聽起來(lái)像通過(guò)電話錄制的,那么合成也是如此。它在口音方面也很不錯(cuò)——至少是美式、英式和一些歐洲口音。
在情感方面,結(jié)果就不那么令人印象深刻了。使用憤怒、困倦、有趣或厭惡的語(yǔ)音樣本似乎會(huì)讓事情偏離軌道,合成出來(lái)的聲音聽起來(lái)扭曲得很奇怪。
這類技術(shù)的影響非常明顯;從積極的方面來(lái)看,將來(lái)你在超市里推手推車的時(shí)候,可以讓摩根·弗里曼(Morgan Freeman)為你的購(gòu)物清單念一遍。如果演員在電影中中途死亡,他們可以使用這樣的系統(tǒng)通過(guò)深度偽造的視頻和音頻來(lái)完成表演。蘋果公司最近推出了一套由人工智能為你朗讀的有聲讀物目錄,很顯然,你很快就能在飛行中切換旁白。
消極的一面是,這對(duì)配音演員和敘述者來(lái)說(shuō)并不是什么好消息?;蛘邔?duì)聽眾來(lái)說(shuō);人工智能或許能夠快速且廉價(jià)地完成敘述,但不要指望它有太多藝術(shù)元素。他們不會(huì)像史蒂芬·弗萊那樣解讀道格拉斯·亞當(dāng)斯。
騙子的潛力也非常大。如果一個(gè)騙子能讓你在電話上停留三秒鐘,他們就能竊取你的聲音,然后用它給你的奶奶打電話?;蛘呃@過(guò)任何語(yǔ)音識(shí)別安全設(shè)備。這正是終結(jié)者機(jī)器人打電話時(shí)需要的東西。
當(dāng)然,每個(gè)人都還在等待這樣一個(gè)時(shí)刻:一個(gè)政治人物的第一次深度偽造的演講,欺騙了足夠多的人,破壞了相信你的眼睛和耳朵的概念——就好像客觀真理在這個(gè)奇怪的時(shí)代還沒有受到攻擊一樣。
微軟Vall-E團(tuán)隊(duì)在其演示頁(yè)面的末尾附加了一份簡(jiǎn)短的道德聲明:“這項(xiàng)工作中的實(shí)驗(yàn)是在假設(shè)模型的用戶是目標(biāo)說(shuō)話者并已得到說(shuō)話者的批準(zhǔn)的情況下進(jìn)行的。然而,當(dāng)模型推廣到看不見的演講者時(shí),相關(guān)的組件應(yīng)該伴隨著語(yǔ)音編輯模型,包括確保演講者同意執(zhí)行修改的協(xié)議和檢測(cè)編輯后的語(yǔ)音的系統(tǒng)?!?
像DALL-E、ChatGPT、各種deepfake算法和無(wú)數(shù)其他創(chuàng)造性人工智能的崛起,感覺在過(guò)去幾個(gè)月里正處于一個(gè)拐點(diǎn),開始沖出實(shí)驗(yàn)室,進(jìn)入現(xiàn)實(shí)世界。與所有變化一樣,它帶來(lái)了機(jī)遇和風(fēng)險(xiǎn)。我們真的生活在一個(gè)有趣的時(shí)代。