1. 程式人生 > >nlp事件抽取入門筆記(1)

nlp事件抽取入門筆記(1)

 本部落格完全根據博主自己的理解寫出來的有意見的歡迎提出。
 首先提出問題:
     1、nlp是什麼?
     2、nlp的事件抽取是什麼?
     3、事件抽取所處的位置?
     4、事件抽取的方法有哪些?
     5、模式匹配方法如何進行事件抽取?
     6、機器學習方法如何進行事件抽取?
     7、基於機器學習方法抽取方式的特點?
  1、nlp是什麼?
    nlp是自然語言處理,是電腦理解並表達出人們平常的所說的語言。
  2、nlp的事件抽取是什麼?
    事件抽取是從非結構資訊中抽取出使用者感興趣的資訊,並以結構化資料傳遞給使用者。
  3、事件抽取所處的位置?
    事件抽取是資訊抽取的一部分。事件抽取的又分為元事件抽取和主題事件抽取。
    元事件抽取是動作狀態級的,動作產生或狀態發生變化,一般由動詞驅動。
    主題事件抽取是事件級的,一類核心事件或活動以及與他們相關的事件和活動。
    博主現在所研究的是元事件抽取下機器學習方法。
  4、事件抽取的研究方法有哪些?
    事件抽取的研究方法有模式匹配和機器學習兩種。模式匹配只針對特定領域,移植性差。機器學習應用廣泛,移植性好。
  5、模式匹配方法如何進行事件抽取?
    模式匹配方法是在一定模式的指導下進行事件的識別和抽取。
    模式:指的是抽取模式。通過領域知識和語言知識對目標資訊的上下文環境進行約束。而這約束條件就是抽取模式。
    另外模式是手工建立的,耗時又費力,所以現在用的都是機器學習方法的事件抽取。
  6、機器學習方法如何進行事件抽取?
    對元事件抽取兩大主要任務:對事件識別與分類和對事件元素進行識別和分類。事件元素識別和分類是事件識別和分類
    的基礎。
    有關論文顯示:機器學習演算法混合使用將優於單一演算法。
    事件的探測分兩種實現方式:基於觸發詞的探測方式和基於事件的事例的探測方式。
      基於觸發詞的探測方式:
    基於觸發詞的探測方式的有正反例不平衡和資料稀疏的缺點。因為只有少量觸發詞作為輸入資料進行訓練,大量未參與
    進來的。
    作為反例資料參與到模型中,造成正反例不平衡,觸發詞資料稀疏。
    解決觸發詞探測缺點的方法:通過同義詞擴充套件和二分類結合的方法進行解決,即將觸發詞放入詞典中進行同義詞擴充套件。
      基於事件例項的探測方式:
    基於事件例項的探測方式是將句子而不是詞語作為識別例項。進而通過聚類方法轉化為句子聚類問題,通過聚類得到事
    件句。
    避開了基於觸發詞探測的缺點。
  7、基於機器學習方法抽取方式的特點?
    (1)機器學習方法的優點是自動獲取模式。
    (2)機器學習方法不基於語料的格式和內容,但需要大量標準預料(解決方法:無監督和半監督的方法)