1. 程式人生 > >《CS224n斯坦福課程》-----第一課

《CS224n斯坦福課程》-----第一課

學習筆記:cs224n1
學習視訊:cs224n1
學習課件:cs224n1

第一個問題:什麼是自然語言處理
自然語言處理是一個交叉學科,是電腦科學,人工智慧,以及語言學的交叉學科,而且與計算機視覺相比,它是很獨特的一部分,因為只有人類才擁有語言,所以自然語言處理可以說是一個很有挑戰性的問題。
對於自然語言處理而言,一般有幾個階段自然語言處理的層次
speech 語音 text 文字
phonetic/phonological analysis 語音/語音分析
OCR(Optical Character Recognition)光學字元識別
Tokenization 分詞
Morphological analysis 形態分析
Syntactic analysis 句法分析
Semantic Interpretation 語義解釋
Discourse Processing 話語處理
語音分析,分詞等操作,這個是比較好理解的,日常操作。
那麼形態分析是個什麼鬼,翻譯過來就是對詞進行詞的辨析分析,比如是被動語態,還是主動語態呀等操作。
句法分析就更加複雜了,還有什麼句法分析樹之類的balabala,主要是對整個句子的結構進行理順,什麼是根節點,然後主謂賓是什麼之類的分析。
語義理解,就是語義分析,這個可能是當前研究的重點問題。
話語處理,可能就是目前根據上下文語境理解上下文的內容。
自然語言處理的應用,可以說哪裡有語音有文字,哪裡就可以有自然語言處理的應用,比如你複製一段話在地址框裡,然後寄送地址就可以根據抽取出資訊,然後避免了填寫的麻煩,還是很方便的。
人語言的特殊性在於,我們說每句話都是有意義的,目的性強,每句話傳達特定的含義,然後是需要一個連續的介質來進行傳播資訊。但一個避免不了的問題在於,稀疏性。

第二個問題,什麼是深度學習
對於一直做傳統的機器學習的人兒而言,深知要做好機器學習,一點要做好的一點是特徵工程,整個機器學習週期,基本上都在做特徵工程,如何找到好的特徵是任務之最。但不是說其他部分不重要,比如資料預處理,garbage in garbage out,這是一個必然的趨勢,但很大的部分資料預處理也需要特徵的支援。
對於深度學習而言,引入了對問題的新的思考,如何能夠更好的從資料中學習知識。深度學習提供了一種框架,通過深層次的邏輯斯蒂迴歸單元的組合,然後能夠在不同的層學習不同層次的知識,然後不斷的層次疊加,最後解決問題。在這種框架下,將人從人工提取特徵解放出來,更關注於整個系統框架的構建,新模型,新網路結構的構建,新演算法的研究。並且,計算能力的顯著提高,對於整個深度學習的發展,起到了很重要的推動作用。

第三個問題,NLP問題難在哪裡
首先,從歧義性角度來解釋問題,本身語言有很多的歧義性表述,比如一次多義,還有不同的應用場景詞性不同,比如不同的分割語句理解等。
其次,人們表述的複雜性,不同的場景,我們會說不同的話,可能是相同的話,相同的場景,我們也可能採用不同的描述來表述。
最後,人們的表述依賴於現實世界,依賴於常識,也依賴於結構化的知識體系。

第四個問題,自然語言處理與深度學習的結合
深度學習提供了一個框架,能夠把很多問題框到框架中,然後採用工具,最後將問題得以解決。
比如情感分析,利用RNN得以解決這個問題;
QA方面,深度學習也有嘗試
客服系統,基於RNN的又一次問題的解決
機器翻譯,基於深度學習的方法也有了很多的嘗試,有很好的表現。