1. 程式人生 > 其它 >意圖識別與機器學習

意圖識別與機器學習

意圖識別

基礎概念

識別文字中蘊含的主題和意圖,是偏向於應用層的自然語言理解任務。篇章級別的意圖識別,將其認為是一個模式識別(機器學習)的分類問題,意圖分類。

文字型別 常用建模方法 應用舉例
短語/句子 文法、關鍵詞、深度神經網路 搜尋引擎、多輪對話
段落 LDA、SVM、聚類、深度神經網路等 主題建模、閱讀理解

流程

  1. 意圖定義
    定義的意圖類別具有客觀描述性、唯一性,標註規範方便理解,同一個模型中不同類別的意圖不應該具有交叉、包含等關係,應該具有獨立性,比如性別(男、女),比如新聞報道的主題性質(體育、經濟、政治、軍事)

  2. 資料收集和標註
    按照定義的意圖範圍進行資料標註

  3. 資料預處理
    英文——詞幹提取(cats轉換為cat,effective轉換為effect);詞性歸併(eat,ate,eatein,eating)
    中文——分詞;偏旁部首拆分;
    其他——去除噪聲資料、停頓詞(stopwords)、低頻詞、語氣詞

  4. 特徵提取

識別效能≈難度×特徵×模型×資料:

1.意圖定義的區分性強弱
2.建模方法的合理性
3.訓練資料集合的質量(訓練樣本的規模、對各種場景覆蓋度、標註正確性、與測試集合的匹配度)

機器學習

基礎概念

機器學習(Machine Learning, ML)是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、演算法複雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的效能,在經驗學習中改善具體演算法的效能。
是人工智慧的核心,是使計算機具有智慧的根本途徑。
傳統機器學習的研究方向主要包括決策樹、隨機森林(RF)、人工神經網路(Artificial Neural Networks,ANN)、貝葉斯學習等方面的研究。

常見演算法

決策樹演算法
樸素貝葉斯演算法
支援向量機演算法
隨機森林演算法
人工神經網路演算法
Boosting與Bagging演算法
EM(期望最大化)演算法
深度學習(DL,Deep Learning):是機器學習(ML,Machine Learning)領域中一個新的研究方向

應用

資料分析、資料探勘、生物資料解釋、搜尋技術、機器學習、機器翻譯、自然語言處理、多媒體學習、語音、推薦和個性化技術;
虛擬助手、交通預測、垃圾郵件資訊惡意軟體過濾

人工智慧、機器學習、神經網路、深度學習的關係

實現人工智慧的方法我們統稱為機器學習;
深度學習是一種機器學習的技術;
深度學習是基於神經網路演算法演變而來的,其實最開始只有神經網路演算法
輸入層和輸出層之間加更多的”Hidden Layer“隱藏層,加的越多越”深“;傳統的神經網路演算法只有2-3層,再多層訓練效果可能就不會再有比較大的提升,甚至會衰減。同時訓練時間更長,甚至無法完成訓練。但是Deep Learning可以有非常多層的“Hidden Layer”,並且效果很好。