天空中翱翔的海鷗憑空消失,沙漠中的背包客在行走中人間蒸發(fā)……這些原本需要電影制作人員完成的視頻特效又一次被人工智能“學會了”。
近期,一項收錄于歐洲計算機視覺國際會議(ECCV)的研究開發(fā)了一種人工智能視頻處理算法,可以在視頻畫面里抹除運動中的物體,同時保持運動邊界的清晰度。
這項研究題為《光流 - 邊緣引導的視頻補全》(Flow-edge Guided Video Completion),由美國弗吉尼亞理工大學和Facebook合作完成,第一作者是美國弗吉尼亞理工大學計算機工程專業(yè)的博士生高諶。
高諶目前師從弗吉尼亞理工大學助理教授Jia-Bin Huang,研究領域是計算攝影和計算機視覺,研究集中在圖像/視頻操作和視覺場景理解。
正在騎馬的運動員和馬匹一起消失
在高湛及其同事展示的研究成果畫面中,各類運動中的物體,如擺動中的秋千、正在騎馬的運動員、海上行駛的帆船等,通通在視頻里“無痕”消失,肉眼看不出人為的編輯痕跡。
這項研究的另一位作者Jia-Bin Huang在社交媒體中透露,該算法可以在隨意拍攝的視頻中無縫地移除對象、水印或擴大畫面視野。這一算法還得到圖靈獎得主、人工智能科學家Yann LeCun 的推薦。
高湛等人在論文中介紹,這是一種基于光流的視頻補全算法。視頻補全(video completion)任務是用新合成的內(nèi)容填充給定的時空區(qū)域。它有許多應用,例如修復(去除劃痕)、視頻編輯、特效工作流(去除不需要的對象)、去水印和標志以及視頻穩(wěn)定。
對于視頻補全任務而言,難點是新生成的內(nèi)容需要無縫地嵌入到視頻中,并且更改應盡可能不被察覺。幾年前,業(yè)界通用的方法是基于補丁的合成技術。但這些方法通常合成速度慢,合成新內(nèi)容的能力有限,只能重新混合視頻中已有的補丁。
后來出現(xiàn)了基于學習的技術,能夠?qū)崿F(xiàn)更合理的合成效果,但是由于視頻的高內(nèi)存要求,存在分辨率問題。
作者認為,目前最成功的視頻補全方法是基于光流的技術,其能夠合成色彩和光流,沿著光流的軌跡傳遞顏色,以提升視頻的時間連貫性,從而減輕內(nèi)存問題并實現(xiàn)高分辨率輸出。
這項新研究也采用了基于光流的辦法。作者表示,以往的光流補全方法往往無法保持運動邊界的清晰度,而他們所開發(fā)的方法首先提取并補全運動物體的邊緣,再以光流邊緣為引導補全光流。由于并非所有視頻中缺失的區(qū)域都能通過這種方法補全,研究人員引入了非局部光流,使得視頻內(nèi)容能夠在運動邊界上傳播。
作者稱,可視化和定量結(jié)果都表明,他們的方法與最新的算法相比具有更好的性能。他們同時指出,其方法的運行速度為0.12fps(frames Per Second,每秒傳輸幀數(shù)),與其他基于光流的方法相當,運行速度稍慢是一大弱點。