《資料探勘》學習筆記——認識資料(1)
一、資料屬性定義
屬性:即一個數據的欄位,在不同的領域有不同的等價叫法,例如:維度、特徵、變數。
從具體事例角度看:資料的屬性就像Excel表格的列,比如:學生資料,其中姓名、學號、年齡等每一個標籤即為一個屬性。
學號 | 姓名 | 年齡 | 性別 | 年級 | 身高 | 膚色 |
---|---|---|---|---|---|---|
00001 | 張三 | 13 | 男 | 初一 | 160.00cm | 黃 |
00002 | Jane | 14 | 女 | 初二 | 162.00cm | 白 |
00003 | Marry | 15 | 女 | 初三 | 163.00cm | 黑 |
二、屬性分類
屬性的類別:可分為標稱屬性、二元屬性、序數屬性、數值屬性(又 可分為區間屬性、比率屬性)以及離散屬性和連續屬性。下面對各屬性類別進行簡單介紹:
標稱屬性的值是一些符號或事物的名稱,其中的每個值都可以是一個類別、一種狀態或者一個編碼。比如:上述表格中的學號(相當於編碼,它不同於年齡、身高等屬性,因為它不具備代數意義)、膚色(事物類別)屬性。
二元屬性的值只有兩種選擇,即只有兩類,其取值要麼為A,要麼為B。因此又可稱為布林屬性。比如上述表格中的學生性別,要麼為男、要麼為女。
序數屬性其值之間有先後、大小的秩序區分,但是不一定中間有固定、量化的差值的值。例如奶茶等飲品的大、中、小分類,以及上述表格的年級屬性。
數值屬性跟上面的各種屬性不同的是,數值屬性是一個量化的值,其大小具有明確的代數意義。比如上述表格中的身高、年齡,或者天氣氣溫XX攝氏度等等。
連續、離散屬性離散和連續的意思很明確,即是根據對應屬性的值是連續的還是離散的來進行區分的。比如上述表格的年齡便是一個離散的屬性,而身高則是一個連續的屬性。連續/離散屬性跟數值屬性之間沒有本質的區別,只是界定方式不同。
三、學習小結
小結:這一小節的知識都是一些概念性的東西。乍一看來,好像還比較容易,但是其中還是有一些細節的東西需要去思考、理解。就像標稱屬性中的編碼‘1、2、3、4’與序數屬性的‘1、2、3、4’以及與數值屬性的‘1、2、3、4’之間的區別。
雖然都是同樣的值,但是標稱屬性中的值沒有數值意義,沒有大小、先後次序,不像序數屬性的 ‘1’一定是表示在’2’、’3’、’4’前面,或者比’2’、’3’、’4’小,但是在序數屬性
自我洗腦: 寫筆記感覺是一種非常好的學習方式。就像簡單的概念,一寫,就發現還有好些細節需要進行仔細的思考、辨別,從中發現區別。以前自己看書總是不太在意這些東西,簡單的知識點總是想忽略過,沒有仔細的去思考、學習,然後心中疑惑不知不覺的積累了很多。結果後面難的知識點就慢慢看不懂了。另外,自己一直有很強的畏難情緒。希望自己能堅持寫《資料探勘》學習筆記,堅持把《資料探勘》這本書一點點看完、看懂,順帶克服這畏難的毛病。