想象一個(gè)計(jì)算機(jī)程序能夠直觀地識(shí)別出在無聲的鋼琴演奏視頻中演奏的是哪首樂曲,或許并不夸張。然而,一個(gè)新的人工智能系統(tǒng)卻更進(jìn)一步,以數(shù)字方式逼真地再現(xiàn)了鋼琴演奏的聲音。
這項(xiàng)技術(shù)被稱為Audeo,由華盛頓大學(xué)的一個(gè)團(tuán)隊(duì)設(shè)計(jì)。研究人員使用鋼琴家保羅·巴頓的YouTube視頻對(duì)系統(tǒng)進(jìn)行了培訓(xùn)和測(cè)試。培訓(xùn)包括約17.2萬巴頓演奏巴赫和莫扎特等著名古典作曲家音樂的視頻幀。
在分析一段無聲視頻時(shí),所產(chǎn)生的系統(tǒng)首先會(huì)觀察哪些鍵被按下的順序,確定各個(gè)音符及其排列方式。也就是說,它還能感知到每個(gè)鍵被擊打的力度和被按住的時(shí)間--這讓它能計(jì)算出每個(gè)音符的強(qiáng)度,以及它在隨后彈奏的音符下面持續(xù)的時(shí)間長(zhǎng)度。它還考慮到了鋼琴獨(dú)特的聲學(xué)特性。然后,這些數(shù)據(jù)被轉(zhuǎn)換為一種可以被現(xiàn)有的數(shù)字合成器理解的格式。據(jù)報(bào)道,當(dāng)該合成器回放音樂文件時(shí),它聽起來非常像原始的鋼琴音樂。
在對(duì)Audeo的測(cè)試中,它的任務(wù)是根據(jù)巴頓演奏的靜音視頻重現(xiàn)鋼琴音樂,而不是系統(tǒng)所訓(xùn)練的音樂作品。當(dāng)SoundHound等音樂識(shí)別應(yīng)用分析這些再現(xiàn)時(shí),它們能夠以大約86%的準(zhǔn)確率識(shí)別出樂曲。相比之下,當(dāng)這些應(yīng)用分析相同視頻中的原始鋼琴音頻時(shí),其識(shí)別準(zhǔn)確率攀升至93%。隨著技術(shù)的進(jìn)一步發(fā)展,這種差距應(yīng)該會(huì)縮小。
“我們希望我們的研究能夠?qū)崿F(xiàn)與音樂互動(dòng)的新方法,”該研究的高級(jí)作者Eli Shlizerman副教授說?!袄?,未來的一個(gè)應(yīng)用是,Audeo可以擴(kuò)展到虛擬鋼琴,攝像頭只記錄一個(gè)人的手。此外,通過將攝像頭放在真實(shí)的鋼琴之上,Audeo有可能協(xié)助教學(xué)生如何演奏的新方法。”