1. 程式人生 > >11.19作業

11.19作業

1.理解分類與監督學習、聚類與無監督學習。

簡述分類與聚類的聯絡與區別。

分類:分類是根據文字的特徵或屬性,劃分到已有的類別中。也就是說,這些類別是已知的,通過對已知分類的資料進行訓練和學習,找到這些不同類的特徵,再對未分類的資料進行分類。

聚類:聚類是事先不知道資料會分為幾類,通過分析將資料或者說使用者的共同特點聚合成幾個群體,聚類不需要對資料進行訓練和學習。

 

簡述什麼是監督學習與無監督學習。

是否有監督,就看輸入資料是否有標籤。輸入的資料有標籤,則為有監督學習,沒標籤則為無監督學習。

監督學習:監督學習就好比你已經知道了一些問題以及它們的答案,你只需學習這些已知答案的問題,從而用這些經驗去得出新問題的答案;

無監督學習:無監督學習則好比你不知道問題的答案,而是根據自己的知識去解答題目,找出題目的共同點,並對這些題目進行歸類。

分類屬於監督學習,聚類屬於無監督學習。

 

2.樸素貝葉斯分類演算法 

利用關於心臟情患者的臨床資料集,建立樸素貝葉斯分類模型。

有六個分類變數(分類因子):性別,年齡、KILLP評分、飲酒、吸菸、住院天數

目標分類變數疾病:–心梗–不穩定性心絞痛

新的例項:–(性別=‘男’,年齡<70, KILLP=‘I',飲酒=‘是’,吸菸≈‘是”,住院天數<7)

最可能是哪個疾病?

上傳演算過程。