資料探勘(二) 認識資料
要進行資料探勘,首先我們要知道什麼是資料、資料集,有哪些資料型別
資料集:
在資料庫中,我們儲存的一個資料庫表(table)就是一個資料集,資料表的每一行就是一個資料物件(就是一條資訊),資料表的列就是資料的屬性(用來解釋每一個數據代表什麼含義)
資料(屬性)型別:
標稱:
標稱型別的資料與該資料的名稱(就是上文中的資料屬性)有關,它的值是一些符號或是事物的名稱。資料值代表某種類別、編碼或狀態,因此標稱屬性又被看作是分類的,這些資料值不具有有意義的序,在電腦科學中,這些值也被看做是列舉的。在標稱屬性上,資料運算是沒有意義的。
e.g:頭髮顏色 = {黑色,棕色,金色,紅色,灰色,白色};婚姻狀況 = {已婚、未婚、離婚};職業;身份證號;郵政編碼
二進位制:
二進位制型別的資料也是一種標稱資料,只不過它只有0和1兩個值。
e.g:性別 = {0(表示男),1(表示女)},新型冠狀病毒肺炎測試 = {0(陰性), 1(陽性)}
序數:
序數型別的資料,其可能只具有有意義的序或評定(ranking),但是相繼值之間的差是未知的,具有先後順序。(價值觀上有一個有意義的順序(排名),但不知道連續值之間的大小)序數型別的資料可以通過把數值量的值域劃分成有限個有序類別,把數值屬性離散化而得到。序數屬性的中心趨勢可以用它的眾數和中位數(有序序列的中間值)表示,但不能定義均值
e.g:大小 = {小,中,大},等級,排名
區間標度:
區間標度屬性:用一單位長度順序性度量,值有序(比如溫度、日曆等),不存在0點,倍數沒有意義,比如我們平常通常不說2000年時1000年的2倍
e.g:年份等
比率標度:
具有固定零點的資料型別,可以進行數值運算
e.g:長度、重量等
小結:
PS:離散屬性 VS 連續屬性
離散屬性:有限或無限可數個值,常表示為整數變數,二元屬性時離散屬性的特例
e.g:郵政編碼,計數
連續屬性:屬性值為實數。實踐中,實數只能用有限位數字的數度量和表示,兩虛屬性一般用浮點變量表示
e.g:溫度、高度、重量