1105作業
一、理解分類與監督學習、聚類與無監督學習。
1、簡述分類與聚類的聯系與區別。
分類就是按照某種標準給對象貼標簽(label),再根據標簽來區分歸類。聚類是指事先沒有“標簽”而通過某種成團分析找出事物之間存在聚集性原因的過程。區別是,分類是事先定義好類別 ,類別數不變 。分類器需要由人工標註的分類訓練語料訓練得到,屬於有指導學習範疇。聚類則沒有事先預定的類別,類別數不確定。 聚類不需要人工標註和預先訓練分類器,類別在聚類過程中自動生成 。分類適合類別或分類體系已經確定的場合,比如按照國圖分類法分類圖書;聚類則適合不存在分類體系、類別數不確定的場合,一般作為某些應用的前端,比如多文檔文摘、搜索引擎結果後聚類(元搜索)等。分類的目的是學會一個分類函數或分類模型(也常常稱作分類器 ),該模型能把數據庫中的數據項映射到給定類別中的某一個類中。聚類(clustering)是指根據“物以類聚”原理,將本身沒有類別的樣本聚集成不同的組,這樣的一組數據對象的集合叫做簇,並且對每一個這樣的簇進行描述的過程。
2、簡述什麽是監督學習與無監督學習。
監督學習,就是人們常說的分類,通過已有的訓練樣本(即已知數據以及其對應的輸出)去訓練得到一個最優模型(這個模型屬於某個函數的集合,最優則表示在某個評價準則下是最佳的),再利用這個模型將所有的輸入映射為相應的輸出,對輸出進行簡單的判斷從而實現分類的目的,也就具有了對未知數據進行分類的能力。監督學習裏典型的例子就是KNN、SVM。無監督學習(也有人叫非監督學習,反正都差不多)則是另一種研究的比較多的學習方法,它與監督學習的不同之處,在於我們事先沒有任何訓練樣本,而需要直接對數據進行建模。無監督學習裏典型的例子就是聚類了。聚類的目的在於把相似的東西聚在一起,而我們並不關心這一類是什麽。
二、樸素貝葉斯分類算法 實例
利用關於心臟情患者的臨床數據集,建立樸素貝葉斯分類模型。
有六個分類變量(分類因子):性別,年齡、KILLP評分、飲酒、吸煙、住院天數
目標分類變量疾病:–心梗–不穩定性心絞痛
新的實例:–(性別=‘男’,年齡<70, KILLP=‘I‘,飲酒=‘是’,吸煙≈‘是”,住院天數<7)
最可能是哪個疾病?
上傳演算過程。
3.編程實現樸素貝葉斯分類算法
利用訓練數據集,建立分類模型。
輸入待分類項,輸出分類結果。
可以心臟情患者的臨床數據為例,但要對數據預處理。
1105作業