機器學習筆試
阿新 • • 發佈:2019-01-13
- 分詞方法大致可分為三大類:基於字串匹配的分詞方法(機械分詞方法)、基於統計的分詞方法和基於理解的分詞方法。機械分詞方法主要有整箱最大匹配演算法、逆向最大匹配演算法、雙向最大匹配演算法和最少切分演算法。
- ID3演算法要求特徵必須離散化
- 關鍵詞選取的方法主要有兩種:無監督的方法,利用候選關鍵詞的統計性質,對他們排序,選取最高的若干個作為關鍵詞;有監督的方法,將關鍵詞抽取問題轉換為判斷每個候選關鍵詞是否為關鍵詞的二分類問題,他需要一個已經標註關鍵詞的文件集合訓練分類模型。
多標籤分類方法是關鍵詞分配的方法。
基於標註圖的方法和基於內容的方法是社會標籤推薦的方法。
基於圖的無監督方法
基於分類的有監督方法 - 主動學習方法:有時候,有類標號的資料比較稀少而沒有類標號的資料相當豐富,但是對資料進行人工標註有非常安規,此時學習演算法可以主動地提出一些標註請求,將一些經過篩選的資料提交給專家進行標註。
故主動學習並不屬於監督學習、無監督學習和半監督學習的範疇,因為主動學習過程中指的是主動提出標註請求,也就是需要一個外在的能夠對其請求進行標註的實體(通常是相關領域專業人員),即主動學習是互動進行的。
而半監督學習指的是學習演算法不需要人工干預,基於自身對未標記資料加以利用。 - 下列屬於特徵選擇方法的是( )A模擬退火演算法B序列浮動演算法C分支限界演算法D雙向搜素演算法
- 測試用例=變數數*(每個變數的取值數-1)+1
- 自頂向下的語法分析方法:
(1)遞迴子程式法(2)LL(1)分析法
自底向上的分析技術 有:
( 1 )簡單優先分析法
( 2 )算符優先分析法
( 3 )優先函式
( 4 ) LR 分析法