nlp事件抽取入門筆記(1)
阿新 • • 發佈:2019-01-01
本部落格完全根據博主自己的理解寫出來的有意見的歡迎提出。 首先提出問題: 1、nlp是什麼? 2、nlp的事件抽取是什麼? 3、事件抽取所處的位置? 4、事件抽取的方法有哪些? 5、模式匹配方法如何進行事件抽取? 6、機器學習方法如何進行事件抽取? 7、基於機器學習方法抽取方式的特點? 1、nlp是什麼? nlp是自然語言處理,是電腦理解並表達出人們平常的所說的語言。 2、nlp的事件抽取是什麼? 事件抽取是從非結構資訊中抽取出使用者感興趣的資訊,並以結構化資料傳遞給使用者。 3、事件抽取所處的位置? 事件抽取是資訊抽取的一部分。事件抽取的又分為元事件抽取和主題事件抽取。 元事件抽取是動作狀態級的,動作產生或狀態發生變化,一般由動詞驅動。 主題事件抽取是事件級的,一類核心事件或活動以及與他們相關的事件和活動。 博主現在所研究的是元事件抽取下機器學習方法。 4、事件抽取的研究方法有哪些? 事件抽取的研究方法有模式匹配和機器學習兩種。模式匹配只針對特定領域,移植性差。機器學習應用廣泛,移植性好。 5、模式匹配方法如何進行事件抽取? 模式匹配方法是在一定模式的指導下進行事件的識別和抽取。 模式:指的是抽取模式。通過領域知識和語言知識對目標資訊的上下文環境進行約束。而這約束條件就是抽取模式。 另外模式是手工建立的,耗時又費力,所以現在用的都是機器學習方法的事件抽取。 6、機器學習方法如何進行事件抽取? 對元事件抽取兩大主要任務:對事件識別與分類和對事件元素進行識別和分類。事件元素識別和分類是事件識別和分類 的基礎。 有關論文顯示:機器學習演算法混合使用將優於單一演算法。 事件的探測分兩種實現方式:基於觸發詞的探測方式和基於事件的事例的探測方式。 基於觸發詞的探測方式: 基於觸發詞的探測方式的有正反例不平衡和資料稀疏的缺點。因為只有少量觸發詞作為輸入資料進行訓練,大量未參與 進來的。 作為反例資料參與到模型中,造成正反例不平衡,觸發詞資料稀疏。 解決觸發詞探測缺點的方法:通過同義詞擴充套件和二分類結合的方法進行解決,即將觸發詞放入詞典中進行同義詞擴充套件。 基於事件例項的探測方式: 基於事件例項的探測方式是將句子而不是詞語作為識別例項。進而通過聚類方法轉化為句子聚類問題,通過聚類得到事 件句。 避開了基於觸發詞探測的缺點。 7、基於機器學習方法抽取方式的特點? (1)機器學習方法的優點是自動獲取模式。 (2)機器學習方法不基於語料的格式和內容,但需要大量標準預料(解決方法:無監督和半監督的方法)