自然語言處理(NLP)的一般處理流程!
1. 什么是NLP
自然語言處理 (Natural Language Processing) 是人工智能(AI)的一個子領(lǐng)域。自然語言處理是研究在人與人交互中以及在人與計算機交互中的語言問題的一門學(xué)科。為了建設(shè)和完善語言模型,自然語言處理建立計算框架,提出相應(yīng)的方法來不斷的完善設(shè)計各種實用系統(tǒng),并探討這些實用系統(tǒng)的評測方法。
2. NLP主要研究方向
信息抽?。簭慕o定文本中抽取重要的信息,比如時間、地點、人物、事件、原因、結(jié)果、數(shù)字、日期、貨幣、專有名詞等等。通俗說來,就是要了解誰在什么時候、什么原因、對誰、做了什么事、有什么結(jié)果。
文本生成:機器像人一樣使用自然語言進(jìn)行表達(dá)和寫作。依據(jù)輸入的不同,文本生成技術(shù)主要包括數(shù)據(jù)到文本生成和文本到文本生成。數(shù)據(jù)到文本生成是指將包含鍵值對的數(shù)據(jù)轉(zhuǎn)化為自然語言文本;文本到文本生成對輸入文本進(jìn)行轉(zhuǎn)化和處理從而產(chǎn)生新的文本。
問答系統(tǒng):對一個自然語言表達(dá)的問題,由問答系統(tǒng)給出一個精準(zhǔn)的答案。需要對自然語言查詢語句進(jìn)行某種程度的語義分析,包括實體鏈接、關(guān)系識別,形成邏輯表達(dá)式,然后到知識庫中查找可能的候選答案并通過一個排序機制找出最佳的答案。
對話系統(tǒng):系統(tǒng)通過一系列的對話,跟用戶進(jìn)行聊天、回答、完成某一項任務(wù)。涉及到用戶意圖理解、通用聊天引擎、問答引擎、對話管理等技術(shù)。此外,為了體現(xiàn)上下文相關(guān),要具備多輪對話能力。
文本挖掘:包括文本聚類、分類、情感分析以及對挖掘的信息和知識的可視化、交互式的表達(dá)界面。目前主流的技術(shù)都是基于統(tǒng)計機器學(xué)習(xí)的。
語音識別和生成:語音識別是將輸入計算機的語音符號識別轉(zhuǎn)換成書面語表示。語音生成又稱文語轉(zhuǎn)換、語音合成,它是指將書面文本自動轉(zhuǎn)換成對應(yīng)的語音表征。
信息過濾:通過計算機系統(tǒng)自動識別和過濾符合特定條件的文檔信息。通常指網(wǎng)絡(luò)有害信息的自動識別和過濾,主要用于信息安全和防護(hù),網(wǎng)絡(luò)內(nèi)容管理等。
輿情分析:是指收集和處理海量信息,自動化地對網(wǎng)絡(luò)輿情進(jìn)行分析,以實現(xiàn)及時應(yīng)對網(wǎng)絡(luò)輿情的目的。
信息檢索:對大規(guī)模的文檔進(jìn)行索引??珊唵螌ξ臋n中的詞匯,賦之以不同的權(quán)重來建立索引,也可建立更加深層的索引。在查詢的時候,對輸入的查詢表達(dá)式比如一個檢索詞或者一個句子進(jìn)行分析,然后在索引里面查找匹配的候選文檔,再根據(jù)一個排序機制把候選文檔排序,最后輸出排序得分最高的文檔。
機器翻譯:把輸入的源語言文本通過自動翻譯獲得另外一種語言的文本。機器翻譯從最早的基于規(guī)則的方法到二十年前的基于統(tǒng)計的方法,再到今天的基于神經(jīng)網(wǎng)絡(luò)(編碼-解碼)的方法,逐漸形成了一套比較嚴(yán)謹(jǐn)?shù)姆椒w系。
3. NLP的發(fā)展
1950年前:圖靈測試 1950年前阿蘭·圖靈圖靈測試:人和機器進(jìn)行交流,如果人無法判斷自己交流的對象是人還是機器,就說明這個機器具有智能。
1950-1970:主流:基于規(guī)則形式語言理論
喬姆斯基,根據(jù)數(shù)學(xué)中的公理化方法研究自然語言,采用代數(shù)和集合論把形式語言定義為符號的序列。他試圖使用有限的規(guī)則描述無限的語言現(xiàn)象,發(fā)現(xiàn)人類普遍的語言機制,建立所謂的普遍語法。
1970-至今:主流:基于統(tǒng)計 谷歌、微軟、IBM,20世紀(jì)70年代,弗里德里克·賈里尼克及其領(lǐng)導(dǎo)的IBM華生實驗室將語音識別率從70%提升到90%。 1988年,IBM的彼得·布朗提出了基于統(tǒng)計的機器翻譯方法。 2005年,Google機器翻譯打敗基于規(guī)則的Sys Tran。
2010年以后:逆襲:機器學(xué)習(xí)
AlphaGo先后戰(zhàn)勝李世石、柯潔等,掀起人工智能熱潮。深度學(xué)習(xí)、人工神經(jīng)網(wǎng)絡(luò)成為熱詞。領(lǐng)域:語音識別、圖像識別、機器翻譯、自動駕駛、智能家居。
4. NLP任務(wù)的一般步驟
下面圖片看不清楚的,可以百度腦圖查看,點擊鏈接
5. NLP、CV,選哪個?
NLP:自然語言處理,數(shù)據(jù)是文本。
CV:計算機視覺,數(shù)據(jù)是圖像。
兩者屬于不同的領(lǐng)域,在遇到這個問題的時候,我也是猶豫了很久,想了很多,于是乎得出一個結(jié)論:都是利用深度學(xué)習(xí)去解決現(xiàn)實世界存在的問題,離開了CV,NLP存活不了;離開了NLP,CV存活不了。兩者就像兄弟姐妹一樣,整個“家庭”不能分割但個體又存在差異!
NLP/CV屬于兩個不同的研究領(lǐng)域,都是很好的領(lǐng)域,可以根據(jù)自己的愛好作出適合自己的選擇,人工智能是一個多學(xué)科交叉的領(lǐng)域,需要的不僅僅是單方面的能力,而是多方面的能力。對于每個人來說都有自己的側(cè)重點,選擇自己擅長的領(lǐng)域里持續(xù)深耕,就會有所成就!