“江湖(a kind of social enviornment exsits politics and tactics,一種存在政治和詭計的社會環(huán)境)這個詞,是中國文化中一種獨特的表達(dá),用機器將它正確地翻譯成英文是很難的,它一般都會按照字面意義直接翻譯,機器有可能會認(rèn)為那是江西省和湖南?。╰he province of Jiangxi and Hunan)或者江和湖(rivers and lakes)的意思?!闭f起AI同傳場景中涉及的一個關(guān)鍵技術(shù)——機器翻譯存在的問題,微軟首位華人“全球技術(shù)院士”、首席語音科學(xué)家黃學(xué)東近日這樣形象地向《中國經(jīng)營報》記者舉例表示。
事實上,AI同傳場景中,機器翻譯的問題還不僅僅是上文所提及的。并且,在該場景牽涉的另兩項技術(shù)——語音識別和語音合成中,也存在一些問題。
此外,通過與同傳行業(yè)人士以及業(yè)內(nèi)專業(yè)人士的交流,本報記者初步了解到,在AI技術(shù)運用到同傳的實際應(yīng)用場景中,當(dāng)前是否真的能為人工同傳的工作提供實質(zhì)性幫助,或也值得關(guān)注。
概念上的厘清和界定
近日,在接受記者采訪的一些專業(yè)人士看來,同傳本來指的是同聲傳譯,也就是說話者的源語言發(fā)出的聲音與人工同傳人員將這種語言轉(zhuǎn)譯為另一種語言,口譯出來的聲音基本同步。在延時時長上,它對譯者有很嚴(yán)格的要求,這也是同聲傳譯與其他普通形式的翻譯的一個很重要的區(qū)別。AI同傳是機器翻譯的一個具體應(yīng)用任務(wù)。
科大訊飛方面告訴本報記者:“目前AI同傳的概念更傾向于理解為人機耦合,即同傳和機器的配合?!?/span>
在AI技術(shù)模擬人工同傳的做法、滲透到該行業(yè)的過程中,主要運用了上文提及的語音識別、機器翻譯和語音合成這三種技術(shù)。
一些受訪人士認(rèn)為,實際的應(yīng)用場景中,通常會看到只有機器識別講者聲音并轉(zhuǎn)錄為文本、然后機器實時地將這種文本翻譯為目標(biāo)語言文本的形式,顯示在講者PPT旁邊的大屏幕上。雖然沒有最后一步,但完成了最關(guān)鍵、最有技術(shù)難度的兩個步驟,所以某種程度上,這也可以算是一種廣義上的機器同傳的表現(xiàn)形式。
京東集團AI事業(yè)部副總裁、深度學(xué)習(xí)及語音語言實驗室主任何曉冬告訴本報記者:“這基本上也可以算作是同傳,只是最后聲音沒放出來?!?/span>
“AI同傳到文本翻譯這一步,后面接一個語音合成系統(tǒng)就可以輸出語音?!眮碜灾袊茖W(xué)院自動化研究所下屬的中科凡語公司的一名專業(yè)人士向本報記者這樣表示。
何曉冬認(rèn)為:“機器翻譯的結(jié)果至于說是以文本形式顯示在屏幕上,還是用語音合成的技術(shù),以聲音的形式輸送到耳朵里,這個問題其實倒不是那么大,因為語音合成現(xiàn)在還是比較成熟的,是這三種技術(shù)中比較容易控制的?!?/span>
AI同傳場景依舊面臨的挑戰(zhàn)
與人工同傳的工作類似,運用AI技術(shù)進(jìn)行廣義上的機器同傳時,首先要對說話者的聲音進(jìn)行語音識別。這是第一步,甚至也可以說是最關(guān)鍵的步驟之一,因為如果機器不能聽清講者在說些什么,后面的翻譯結(jié)果可想而知。
在語音識別環(huán)節(jié),近日,來自全球一家世界500強科技公司的專業(yè)人士在接受本報記者采訪時稱:“之前參加過一些活動,看到配用的機器同傳系統(tǒng)一旦碰到co-mixing(講者演講中出現(xiàn)中英文混雜的情況)的時候,就會出現(xiàn)一些問題?!?/span>
該人士補充道:“基本上現(xiàn)有的語音識別系統(tǒng)都是在單語種上進(jìn)行優(yōu)化的,機器翻譯現(xiàn)在的訓(xùn)練數(shù)據(jù)或者訓(xùn)練語料當(dāng)中,co-mixing出現(xiàn)的比例其實并不高,它對目前的翻譯系統(tǒng)的訓(xùn)練可能并沒有產(chǎn)生什么影響,所以目前碰到co-mixing或者是co-switching(中英文編碼轉(zhuǎn)換,指的就是多種不同的語言結(jié)合在一起的時候)這種現(xiàn)象時,機器處理得并不好。”
黃學(xué)東也向記者表示,因為“一般的PC麥克風(fēng)遠(yuǎn)場不是很好”,微軟具有語音識別和實時機器翻譯功能的PPT當(dāng)前也面臨著“需要把麥克風(fēng)遠(yuǎn)場交互做得更好”的挑戰(zhàn)。
而除了上述語音識別方面的問題,對于復(fù)雜場景、嘈雜環(huán)境中的語音識別,以及方言、嚴(yán)重的口音、口語等的語音識別,AI也依然面臨挑戰(zhàn)。
此外,在最關(guān)鍵的機器翻譯環(huán)節(jié),除了文章開頭即提及的不能根據(jù)上下文語境進(jìn)行精準(zhǔn)翻譯、只能從字面直接的意義去理解外,機器同傳翻譯對詩歌、抒情散文等的翻譯,與人工同傳相比仍舊還有距離,還難以達(dá)到語言翻譯追求的“雅”的境界。
近日,搜狗語音交互技術(shù)中心高級總監(jiān)陳偉在接受記者采訪時稱:“詩歌的詞和詞之間的對應(yīng)關(guān)系很弱,機器如果直接按照詩歌里面說的,把它轉(zhuǎn)化成白話文去翻譯的話,是反映不出意境的。所以詩歌翻譯上,目前如果真的要靠模型的方式來做,距離人工還有很大差距?!笨拼笥嶏w方面也對本報記者表示:“后續(xù)在整體識別翻譯的準(zhǔn)確度和流暢度上仍有進(jìn)步空間,要達(dá)到標(biāo)準(zhǔn)的‘信達(dá)雅’還有一段路要走?!?/span>
何曉冬還向記者提到了同傳場景中機器翻譯的一個很重要的問題:“機器需要去判斷什么時候出翻譯,很多時候要等著聽到后面的內(nèi)容才知道前面該怎么翻,但因為是同傳,所以也不能等太久,這時候就需要做一個決策,是等下去損失用戶體驗,還是先把前面的部分翻譯出來?!?/span>
但這樣同樣會面臨一個問題。他以“美國第42屆新當(dāng)選的總統(tǒng)特朗普和安倍晉三在某地方會晤”的中英翻譯為例補充提到,這是一句較長的話,中英文語句對主謂賓的表達(dá)順序不同,在翻譯成英文的過程中,如果譯者一直等到后面的關(guān)鍵詞“會晤”出現(xiàn),就會出現(xiàn)延時長的問題,但如果為了顧及實時性趕緊翻譯,甚至有可能會翻錯。
“因為它有可能不是‘會晤’,而是別的動詞,不到最后那個詞出來,你就不知道具體是什么。實時性和翻譯質(zhì)量之間比較難兼顧。這個問題目前其實業(yè)界也沒有很好的辦法去解決?!彼虮緢笥浾咛峒?。
清華大學(xué)計算機系教授劉洋也向本報記者提到:“目前距離開放域、開放環(huán)境的全自動、高質(zhì)量語音翻譯還有很大距離,未來還需要學(xué)術(shù)界和工業(yè)界長期的共同努力?!?/span>
而即使是在業(yè)界普遍認(rèn)為的技術(shù)成熟度相對最高的語音合成環(huán)節(jié),也依然還有問題待解。
何曉冬認(rèn)為,這項技術(shù)雖然并不是很難,但如果做得不好,也會影響用戶的體驗。“語音合成的聲音比較平和、柔順,聽起來比較符合人的自然的聲音?!?/span>
此外,被看作是深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)在機器翻譯領(lǐng)域的成功應(yīng)用、支撐機器翻譯的NMT(神經(jīng)機器翻譯)架構(gòu)本身,也被指存在可靠性、數(shù)據(jù)偏差、無意義輸出、記憶力、對常識的判斷力以及機器翻譯質(zhì)量評估方面的問題。劉洋向本報記者稱:“過去一兩年,基于神經(jīng)網(wǎng)絡(luò)的機器翻譯方法的大體框架沒有發(fā)生重大變化?!?/span>
而正如前文所述,AI技術(shù)到底對人工同傳的工作有多大實際的輔助作用,也還依舊值得關(guān)注。
劉洋向本報記者提及:“一般而言,很多實用化的、對譯文質(zhì)量要求非常高的機器翻譯系統(tǒng)都會采用人機協(xié)同的方式,充分發(fā)揮人類專家和機器的優(yōu)勢,通常由機器先生成初始譯文,然后由人類專家進(jìn)行后編輯?!?/span>
然而,近日,有在同傳行業(yè)工作10年之久的一位人工同傳向本報記者稱:“我一般自己翻自己的,不看機器翻譯的結(jié)果。同傳的程序就應(yīng)該是聽-譯,而不是聽-看-譯(或照著機器初翻的結(jié)果跟著讀),后者分散精力,對翻譯員的壓力更大?!?/span>
上述500強公司的專業(yè)人士也向本報記者提及:“技術(shù)上自動同傳或者自動機器翻譯的系統(tǒng),可以給人工同傳提供一定的輔助和支持。但這個目前還沒有在實踐上被驗證。至于怎么起到這種輔助作用,那也是未來實現(xiàn)的事情?!?/span>
而在投資市場,近日,星瀚資本創(chuàng)始人楊歌在接受記者采訪時提及,同傳行業(yè)本身屬于一個“高頻的小眾市場”,市場整體產(chǎn)能相對有限,AI同傳領(lǐng)域應(yīng)更關(guān)注其能否延展到其他行業(yè)的應(yīng)用中去。
相較于與不同語種的機器人進(jìn)行同傳的對話和交流的“深A(yù)I”表現(xiàn)形式,楊歌認(rèn)為,對于單個人的語音進(jìn)行機器同傳則是一種“淺AI”的表現(xiàn)形式,前者“因更多地涉及到對話內(nèi)容、邏輯,還有理解長段對話的一個過程,難度非常大,現(xiàn)在還屬于早期發(fā)展階段”。
業(yè)界探索和進(jìn)展略舉
作為人類區(qū)別于其他生物的標(biāo)志之一,語音、語言方面的相關(guān)技術(shù),在黃學(xué)東看來,堪稱鑲在AI皇冠上的明珠。
他本人在這顆“明珠”上幾十年的雕琢和打磨,也見證了科技進(jìn)步所帶來的改變。
他或許還記得,早年間求學(xué)蘇格蘭愛丁堡大學(xué)時,臺上操著濃重蘇格蘭英語的教授的發(fā)音,給自己帶來的“痛苦的經(jīng)歷”。
而這一切,現(xiàn)在已經(jīng)徹底成為歷史。2019年,通過整合此前就已推向市場的PPT插件,微軟向其office 365訂閱用戶推出了在講者演示時具有實時字幕和機器同步翻譯等功能的PPT。
在他看來,技術(shù)在現(xiàn)實場景中最后一公里的落地是AI所面臨的最大挑戰(zhàn)。而微軟的AI技術(shù)在同傳場景中的這項應(yīng)用,在他看來“可圈可點”,讓同傳走上了新的臺階,使用量和用戶量都出現(xiàn)了前所未有的增長,已經(jīng)實際惠及全球千萬級用戶。
“大家在臺上演講,有些人有語言障礙,同聲字幕和翻譯,對PPT的用戶來說,就很深入人心?!彼硎?。而對于前面提到的微軟PPT麥克風(fēng)遠(yuǎn)場交互方面的問題,他表示可以用佩戴無線頭戴耳機的方式來解決。
此外,不久前搜狗推出的3.0版本的同傳產(chǎn)品,據(jù)稱還用到了計算機視覺方面的技術(shù),是業(yè)內(nèi)首個“多模態(tài)”同傳產(chǎn)品,首創(chuàng)語境引擎,不僅會聽、會看還會思考。
科大訊飛方面近日也向記者表示,其人機耦合模式下的同聲傳譯“已經(jīng)涉及醫(yī)療和科技領(lǐng)域,特別是在醫(yī)療領(lǐng)域?qū)ο嚓P(guān)垂直科室的專有名詞的優(yōu)化,大大提升了識別和翻譯的準(zhǔn)確性,解決了通用引擎在垂直領(lǐng)域上效果的不足”。
在AI同傳的研究方面,據(jù)黃學(xué)東向本報記者介紹,2019年,微軟在斯坦福大學(xué)進(jìn)行的對話轉(zhuǎn)語音識別方面,也“達(dá)到了可以媲美人類的水平”。
何曉冬向本報記者稱,在學(xué)術(shù)研究層面,當(dāng)前業(yè)界有關(guān)于探討“能否做成一個很大的端到端的系統(tǒng),把語音識別和機器翻譯整個包起來,直接從語音到語音,而不是說分語音識別、機器翻譯和語音合成這三步走”的問題。劉洋同時提到,關(guān)于該領(lǐng)域的學(xué)術(shù)研究還包括低延遲搜索算法等方面。
劉洋還向本報記者稱,當(dāng)前業(yè)界針對同傳的具體特點(如實時性高、需有效處理環(huán)境噪聲等)做了很多優(yōu)化工作,但總體而言還沒有取得新的里程碑式的重大突破。