1. 程式人生 > >《資料探勘》學習筆記——認識資料(1)

《資料探勘》學習筆記——認識資料(1)

一、資料屬性定義

屬性:即一個數據的欄位,在不同的領域有不同的等價叫法,例如:維度、特徵、變數。
從具體事例角度看:資料的屬性就像Excel表格的列,比如:學生資料,其中姓名、學號、年齡等每一個標籤即為一個屬性。

學號 姓名 年齡 性別 年級 身高 膚色
00001 張三 13 初一 160.00cm
00002 Jane 14 初二 162.00cm
00003 Marry 15 初三 163.00cm

二、屬性分類

屬性的類別:可分為標稱屬性、二元屬性、序數屬性、數值屬性(又 可分為區間屬性、比率屬性)以及離散屬性和連續屬性。下面對各屬性類別進行簡單介紹:

  1. 標稱屬性的值是一些符號或事物的名稱,其中的每個值都可以是一個類別、一種狀態或者一個編碼。比如:上述表格中的學號(相當於編碼,它不同於年齡、身高等屬性,因為它不具備代數意義)、膚色(事物類別)屬性。

  2. 二元屬性的值只有兩種選擇,即只有兩類,其取值要麼為A,要麼為B。因此又可稱為布林屬性。比如上述表格中的學生性別,要麼為男、要麼為女。

  3. 序數屬性其值之間有先後、大小的秩序區分,但是不一定中間有固定、量化的差值的值。例如奶茶等飲品的大、中、小分類,以及上述表格的年級屬性。

  4. 數值屬性跟上面的各種屬性不同的是,數值屬性是一個量化的值,其大小具有明確的代數意義。比如上述表格中的身高、年齡,或者天氣氣溫XX攝氏度等等。

  5. 連續、離散屬性離散和連續的意思很明確,即是根據對應屬性的值是連續的還是離散的來進行區分的。比如上述表格的年齡便是一個離散的屬性,而身高則是一個連續的屬性。連續/離散屬性數值屬性之間沒有本質的區別,只是界定方式不同。

三、學習小結

小結:這一小節的知識都是一些概念性的東西。乍一看來,好像還比較容易,但是其中還是有一些細節的東西需要去思考、理解。就像標稱屬性中的編碼‘1、2、3、4’與序數屬性的‘1、2、3、4’以及與數值屬性的‘1、2、3、4’之間的區別。

雖然都是同樣的值,但是標稱屬性中的值沒有數值意義,沒有大小、先後次序,不像序數屬性的 ‘1’一定是表示在’2’、’3’、’4’前面,或者比’2’、’3’、’4’小,但是在序數屬性

中他們之間的差值卻是沒有意義的,這一點就不同於數值屬性。也就是說,你不能用‘4 - 1’量化兩個屬性值之間的差。數值屬性中‘4 -1 ’就有明確的意義,比如表示A比B大3歲、重3kg之類的。

自我洗腦: 寫筆記感覺是一種非常好的學習方式。就像簡單的概念,一寫,就發現還有好些細節需要進行仔細的思考、辨別,從中發現區別。以前自己看書總是不太在意這些東西,簡單的知識點總是想忽略過,沒有仔細的去思考、學習,然後心中疑惑不知不覺的積累了很多。結果後面難的知識點就慢慢看不懂了。另外,自己一直有很強的畏難情緒。希望自己能堅持寫《資料探勘》學習筆記,堅持把《資料探勘》這本書一點點看完、看懂,順帶克服這畏難的毛病。