(央視財(cái)經(jīng)《天下財(cái)經(jīng)》)在日本,古代文獻(xiàn)大量使用了草書和行書這樣的手寫體來書寫日語假名和漢字,要看懂不容易。而AI技術(shù),也就是人工智能系統(tǒng)的開發(fā)能夠幫助人們快速識(shí)讀。
包括手抄本和印刷本在內(nèi),日本流傳至今的古代手寫體文獻(xiàn)據(jù)估算達(dá)到數(shù)億件,但由于能夠看懂手寫體的專業(yè)人才極為有限,所以導(dǎo)致大量史料尚未完成識(shí)讀整理工作。最近,日本信息系統(tǒng)研究機(jī)構(gòu)的一個(gè)研究小組開發(fā)了一套人工智能系統(tǒng),通過事先學(xué)習(xí)已由專家整理完成的44部文獻(xiàn),共計(jì)100萬字的手寫體寫法,目前該系統(tǒng)已基本實(shí)現(xiàn)了準(zhǔn)確高效地識(shí)讀古代文獻(xiàn)。
財(cái)經(jīng)頻道特約記者王翔:我們已經(jīng)把日本古典文學(xué)名著《源氏物語》掃描進(jìn)了電腦,只需要按一下按鈕,馬上就會(huì)在屏幕上看到人工智能解讀的結(jié)果。像這樣一頁手寫體文獻(xiàn),如果由人來完成的話,即便是最熟練的專家也需要10分鐘以上,不過人工智能只花了不到3秒鐘時(shí)間。
該研究小組共有3名成員,其中一名是來自泰國的塔琳 卡努瓦。11年前,塔琳來東京留學(xué)攻讀日本古典文學(xué),經(jīng)常需要閱讀原始文獻(xiàn)。連日本學(xué)生都難以辨識(shí)的古代手寫體文字,對一名來自漢字文化圈以外的留學(xué)生來說,無異于天書。這樣的經(jīng)歷促使塔琳一同加入了這個(gè)研究小組,用半年時(shí)間開發(fā)了這套能夠自動(dòng)識(shí)別手寫體文獻(xiàn)的人工智能系統(tǒng)。
日本信息系統(tǒng)研究機(jī)構(gòu)研究員塔琳 卡努瓦:這套系統(tǒng)基本覆蓋了常用漢字,可以給日本文學(xué)研究者提供方便。
據(jù)研究小組負(fù)責(zé)人介紹,這套系統(tǒng)識(shí)別手寫體文字的準(zhǔn)確率已經(jīng)達(dá)到90%以上,研究小組今后將繼續(xù)擴(kuò)大供人工智能系統(tǒng)用于學(xué)習(xí)的數(shù)據(jù)庫范圍,并改進(jìn)程序算法,來進(jìn)一步提高系統(tǒng)識(shí)別文字的準(zhǔn)確率。
日本信息系統(tǒng)研究機(jī)構(gòu)項(xiàng)目負(fù)責(zé)人北本朝展:這套系統(tǒng)也適用于漢語文獻(xiàn),部分文字的手寫體樣本太少,增加樣本數(shù)量是今后改善的重點(diǎn)。