對資料的認識(一)

阿新 • • 發佈：2019-01-13

一、資料物件與屬性型別

1、屬性：一個數據欄位，表示資料物件的一個特徵。（屬性（資料探勘和資料庫人員使用）、維（資料倉庫）、特徵（機器學習）、變數可以互換實用（統計學家使用）） 2、標稱屬性：標稱意味著“與名稱相關”；標稱屬性的值是一些符號或失誤的名稱。每個只代表某種類別、編碼或者狀態，因而標稱屬性又被堪稱是分類的。例如，人的屬性->頭髮顏色（黑、白、棕、紅、黃...）和婚姻狀況（未婚、已婚、離異...）屬於標稱屬性。其實也就是列舉的屬性。標稱屬性值可以用數字表示，如1，2，3等；但是這些值並不具有有意義的序，並且不是定量的，因而這種屬性的均值、中位數是沒有意義的。眾數是有意義的。

3、二元屬性：是一種標稱屬性，只有兩種類別（狀態）：0和1，通常0表示該屬性不出現，1表示出現。又稱為布林屬性（true 和 false）。二元屬性又分對稱的和非對稱的：對稱指兩種狀態具有同等價值且相同的權重，如性別（男、女）；非對稱是指狀態的結果不是同樣重要的，如病毒化驗結果（陽性、陰性）。 4、序數屬性：其可能的值之間具有有意義的序或秩評定，但是相繼值之間的差是未知的。序數屬性通常用於等級評定調查。標稱、二元和序數屬性都是定性的，他們描述物件的特徵，而不給出實際大小或數量。定性屬性的值通常是代表類別的詞。 5、數值屬性：是定量的，他是可度量的量，用證書或實數值表示

，數值屬性可以是區間標度的或比率標度的。區間標度屬性：屬性用相等的單位尺度度量。區間熟悉的值有序，例如： 20度，15度（溫度屬性）；比率標度屬性：具有固定零點的數值屬性，即一個值是另一個的倍數（比率）。比率值也是有序的，可以計算值之間的差、也能計算均值、中位數、眾數。 6、離散屬性與連續屬性：機器學習領域開發的分類演算法通常把屬性分類成離散或連續的。離散屬性：具有有限或無限可數個值，可以用或不用整數表示，如頭髮顏色、婚姻狀況都是有限個值，是離散的。二、資料的基本統計描述對於成功的資料預處理來說，把握資料的全貌是至關重要的。三類基本統計描述：

中心趨勢度量：度量資料分佈的中部或中心位置，還有均值、中位數、眾數和中列數。資料的散佈：常見度量有：極差、四分位數、四分位數極差、五數概括和盒圖，以及資料的方差和標準差。（可以用於識別離群點）圖形顯示視覺化地審視資料：條圖、餅圖、線圖、分位數圖、分位數-分位數圖、直方圖、散點圖 1、中心趨勢度量資料集“中心”的最常用、最有效的數值度量是（算術）均值：也就是資料庫中的SQL操作：avg()

加權平均（加權算術均值）：權重反映數值的意義、重要性或出現的頻率：（權重W與值X對應）

均值並非總是度量資料中心的最佳方法：對極端值（離群點）很敏感；解決方法可以使用截斷均值：丟棄高低兩個極端值（不一定是一個值，也可以是多個值）後的均值。中位數：更好度量資料中心（非對稱資料）的方法，是有序資料值的中間值。

眾數：是另外一種中心趨勢度量。是集合中出現最頻繁的值。若具有多個眾數的資料集是多峰的；另一種極端情況是如果每個資料值僅出現一次，則他是沒有眾數的。（一般對應與非對稱資料）中列數：資料集中最大和最小值的平均值 2、度量資料散佈：極差：集合的極差是最大值與最小值的差。分位數：取自資料分佈的每隔一定間隔上的點，把資料劃分成基本上大小相等的連貫集合。 2-分位數：是一個數據點，他把資料分佈劃分成高低兩半，2-分位數對應於中位數。 4-分位數：是三個資料點，他們把資料分佈劃分成4個相等的部分，使得每部分表示的資料分佈的四分之一。 100-分位數：稱為百分位數，他們把資料分佈劃分成為100個大小相等的連貫集合。四分位數：第一個四分位數記作Q1，是第25個百分數為（資料集合25%的位置）；第二個四分位數記作Q2，是第50個百分位數，作為中位數給出資料分佈的中心；第三個四分位數記作Q3，是第75個百分位數（資料集合75%的位置）。四分位數極差（IQR）： IQR = Q3 - Q1 五數概括：由中位數（Q2）、四分位數Q,Q3、最小和最大觀測值組成。按次序為 Min、Q1、Median、Q3、Max。識別可疑的離群點的規則：通常挑選落在第三個四分位數之上或第一個四分位數之下至少1.5倍IQR處的值。 eg: 方差和標準差：若x1,x2,x3.xn的平均數為m
則方差s^2=1/n[(x1-m)^2+(x2-m)^2+.+(xn-m)^2]
標準差s=√1/n[(x1-m)^2+(x2-m)^2+.+(xn-m)^2] 三、資料視覺化資料視覺化旨在通過圖形表示清晰有效地表達資料。

對資料的認識(一)

對資料的認識(一)

Go語言基礎（十一）—— 實現命令列引數對資料的簡單查詢小案例

對資料結構的新認識

為什麼要對資料進行歸一化？

Spark中元件Mllib的學習11之使用ALS對movieLens中一百萬條（1M）資料集進行訓練，並對輸入的新使用者資料進行電影推薦

Spark隨機森林演算法對資料分類（一）——計算準確率和召回率

JavaWeb之DBUtils（一）QueryRunner類對資料表的增、刪、查（8種結果集處理方式）、改操作

jasper report對資料向上取整的一種方法

長篇轉載《再見，小美》-對小姐的另一種認識[一]

一種在客戶端利用js實現對資料校驗的方法

chrome 中在棧上建立指定位元組對齊的POD型別的static資料的一種可移植的方法

如何對excel某一列的資料進行分列

SDM人臉對齊系列一：資料預處理

R語言對資料框按某一列分組求組內平均值

重學c#系列——對c#粗淺的認識(一)

【php】面向對象（一）

JS函數和對象（一）

Python －面向對象（一基本概念）

面向對象（一）封裝命名空間訪問修飾符等

PHP面向對象（一）

對資料的認識(一)

相關推薦