1. 程式人生 > >對資料的認識(一)

對資料的認識(一)

一、資料物件與屬性型別

1、屬性: 一個數據欄位,表示資料物件的一個特徵。(屬性(資料探勘和資料庫人員使用)、維(資料倉庫)、特徵(機器學習)、變數可以互換實用(統計學家使用)) 2、標稱屬性:標稱意味著“與名稱相關”;標稱屬性的值是一些符號或失誤的名稱。每個只代表某種類別、編碼或者狀態,因而標稱屬性又被堪稱是分類的。例如,人的屬性->頭髮顏色(黑、白、棕、紅、黃...)和婚姻狀況(未婚、已婚、離異...)屬於標稱屬性。其實也就是列舉的屬性。     標稱屬性值可以用數字表示,如1,2,3等;但是這些值並不具有有意義的序,並且不是定量的,因而這種屬性的均值、中位數是沒有意義的。眾數是有意義的。
3、二元屬性:是一種標稱屬性,只有兩種類別(狀態):0和1,通常0表示該屬性不出現,1表示出現。又稱為布林屬性(true 和 false)。     二元屬性又分對稱的和非對稱的: 對稱指兩種狀態具有同等價值且相同的權重,如性別(男、女);非對稱是指狀態的結果不是同樣重要的,如病毒化驗結果(陽性、陰性)。 4、序數屬性:其可能的值之間具有有意義的序或秩評定,但是相繼值之間的差是未知的。序數屬性通常用於等級評定調查。 標稱、二元和序數屬性都是定性的,他們描述物件的特徵,而不給出實際大小或數量。定性屬性的值通常是代表類別的詞。 5、數值屬性:是定量的,他是可度量的量,用證書或實數值表示
,數值屬性可以是區間標度的或比率標度的。
    區間標度屬性:屬性用相等的單位尺度度量。區間熟悉的值有序,例如: 20度,15度(溫度屬性);     比率標度屬性:具有固定零點的數值屬性,即一個值是另一個的倍數(比率)。比率值也是有序的,可以計算值之間的差、也能計算均值、中位數、眾數。 6、離散屬性與連續屬性:機器學習領域開發的分類演算法通常把屬性分類成離散或連續的。     離散屬性:具有有限或無限可數個值,可以用或不用整數表示,如頭髮顏色、婚姻狀況都是有限個值,是離散的。 二、資料的基本統計描述     對於成功的資料預處理來說,把握資料的全貌是至關重要的。     三類基本統計描述:
    中心趨勢度量:度量資料分佈的中部或中心位置,還有均值、中位數、眾數和中列數。     資料的散佈:常見度量有:極差、四分位數、四分位數極差、五數概括和盒圖,以及資料的方差和標準差。                                                                                                                                     (可以用於識別離群點)     圖形顯示視覺化地審視資料:條圖、餅圖、線圖、分位數圖、分位數-分位數圖、直方圖、散點圖 1、中心趨勢度量     資料集“中心”的最常用、最有效的數值度量是(算術)均值 也就是資料庫中的SQL操作:avg()     加權平均(加權算術均值):權重反映數值的意義、重要性或出現的頻率:(權重W與值X對應)     均值並非總是度量資料中心的最佳方法:對極端值(離群點)很敏感;解決方法可以使用截斷均值:丟棄高低兩個極端值(不一定是一個值,也可以是多個值)後的均值。     中位數:更好度量資料中心(非對稱資料)的方法,是有序資料值的中間值。       眾數:是另外一種中心趨勢度量。是集合中出現最頻繁的值。若具有多個眾數的資料集是多峰的;另一種極端情況是如果每個資料值僅出現一次,則他是沒有眾數的。(一般對應與非對稱資料     中列數:資料集中最大和最小值的平均值 2、度量資料散佈:     極差:集合的極差是最大值與最小值的差。     分位數:取自資料分佈的每隔一定間隔上的點,把資料劃分成基本上大小相等的連貫集合。 2-分位數:是一個數據點,他把資料分佈劃分成高低兩半,2-分位數對應於中位數。     4-分位數:是三個資料點,他們把資料分佈劃分成4個相等的部分,使得每部分表示的資料分佈的四分之一。     100-分位數:稱為百分位數,他們把資料分佈劃分成為100個大小相等的連貫集合。     四分位數:第一個四分位數記作Q1,是第25個百分數為(資料集合25%的位置);第二個四分位數記作Q2,是第50個百分位數,作為中位數給出資料分佈的中心;第三個四分位數記作Q3,是第75個百分位數(資料集合75%的位置)。     四分位數極差(IQR):  IQR = Q3 - Q1     五數概括:由中位數(Q2)、四分位數Q,Q3、最小和最大觀測值組成。按次序為 Min、Q1、Median、Q3、Max。     識別可疑的離群點的規則:通常挑選落在第三個四分位數之上或第一個四分位數之下  至少1.5倍IQR處的值。 eg:     方差和標準差:  若x1,x2,x3.xn的平均數為m
則方差s^2=1/n[(x1-m)^2+(x2-m)^2+.+(xn-m)^2]
標準差s=√1/n[(x1-m)^2+(x2-m)^2+.+(xn-m)^2]
三、資料視覺化     資料視覺化旨在通過圖形表示 清晰有效地表達資料。

相關推薦

資料認識()

一、資料物件與屬性型別 1、屬性: 一個數據欄位,表示資料物件的一個特徵。(屬性(資料探勘和資料庫人員使用)、維(資料倉庫)、特徵(機器學習)、變數可以互換實用(統計學家使用)) 2、標稱屬性

Go語言基礎(十)—— 實現命令列引數資料的簡單查詢小案例

案例要求: 結合命令列引數、複合型別、包管理、排序等知識,寫一個商品管理系統 商品屬性包括:整型商品ID(gid)、字串型名稱(name)、整型類別(cid)、浮點型價格(price) 自己造一些假資料,實現如下功能: shop.exe -cmd single -gi

資料結構的新認識

資料結構是指相互之間存在著一種或多種關係的資料元素的集合和該集合中資料元素之間的關係組成 資料結構具體指同一類資料元素中,各元素之間的相互關係,包括三個組成成分,資料的邏輯結構,資料的儲存結構和資料運算結構。  資料結構是為了更高效的處理資料而存在的  資料結構與演算法關係

為什麼要資料進行歸化?

為什麼要歸一化 1、提高梯度下降法求解最優解的速度 如下圖所示,藍色的圈圈圖代表的是兩個特徵的等高線。其中左圖兩個特徵X1和X2的區間相差非常大,X1區間是[0,2000],X2區間是[1,5],其所形成的等高線非常尖。當使用梯度下降法尋求最優解時,很有可能走“

Spark中元件Mllib的學習11之使用ALSmovieLens中百萬條(1M)資料集進行訓練,並輸入的新使用者資料進行電影推薦

1解釋 spark-1.5.2 資料集:http://grouplens.org/datasets/movielens/ 一百萬條(1M) 資料劃分: 將樣本評分表以key值切分成3個部分,分別用於訓練 (60%,並加入使用者評分), 校驗 (20

Spark隨機森林演算法資料分類()——計算準確率和召回率

1.召回率和正確率計算 對於一個K元的分類結果,我們可以得到一個K∗K的混淆矩陣,得到的舉證結果如下圖所示。 從上圖所示的結果中不同的元素表示的含義如下: mij :表示實際分類屬於類i,在預測過程中被預測到分類j 對於所有的mij可以概括為四種方式

JavaWeb之DBUtils()QueryRunner類資料表的增、刪、查(8種結果集處理方式)、改操作

一、使用QueryRunner類,實現對資料表的 insert delete update  package com.shuhuadream.queryrunner; import java.sql.Connection; import java.sql.SQLExce

jasper report資料向上取整的種方法

$F{valC}.bigDecimalValue().setScale(0,BigDecimal.ROUND_HALF_UP), 報錯不影響,BigDecimal.ROUND_HALF_UP為四捨五入模式

長篇轉載《再見,小美》-小姐的另認識[]

《再見!小美》 一 我熱愛夜總會。 因為有很多美女,而且這裡的美女都是明碼實價,不用你去猜,不用費腦筋討好她,在這裡你要做的是等著美女討好你,前提是你要有堅挺的人民幣或美元,也就是說美女永遠討好你錢包的內涵,不在乎外表。也許有例外,比如小美。 我是個很有愛心的人,所以我掙的那點兒可憐的銀子,除了吃飯穿衣以外,

種在客戶端利用js實現資料校驗的方法

   通常為了減輕伺服器端的壓力會在客戶端利用js或其他指令碼對使用者填寫的需要提交的資料進行校驗,同時也會帶來使用者體驗的提升。下面介紹一種在客戶端利用js實現對資料進行校驗的方法,僅供參考。      現在假設使用者需要在客戶端通過後臺進行對產品類別的新增操作,利用js

chrome 中在棧上建立指定位元組齊的POD型別的static資料種可移植的方法

// AlignedMemory is a POD type that gives you a portable way to specify static // or local stack data of a given alignment and size. For example, if you ne

如何excel某列的資料進行分列

關住 公 縱 號 “  阿蒙課程分享    ”  獲得學習資料及趣味分享 1.待分割的內容:3.選中待分割列後,選擇【資料】-->【分列】​4.在彈窗中選擇“分割符號”,點選【下一步】5.根據資料特點,選擇空格分割,可以在資料預覽檢視分割效果6.點選【完成】7.分割完成

SDM人臉齊系列資料預處理

    人臉對齊是人臉識別系統中很重要的一個環節,SDM是傳統人臉對齊演算法中效能較為不錯的一種,在今天這個深度學習如火如荼的時代,SDM依舊具有一定的優勢。SDM相比深度網路具有模型小,速度快等優點。儘管SDM已經出現了好幾年,但是網路上對其具體的詳細講解的知識還是比較少,

R語言 資料框按某列分組求組內平均值

可使用aggregate函式,如: aggregate(.~ID,data=這個資料框名字,mean) 如果是對資料框分組,組內有重複的項,對於重複項保留最後一行資料用: pcm_df$du

重學c#系列——c#粗淺的認識()

### 前言 什麼是c#呢? 首先你是如何讀c#的呢?c sharp?或者c 井? 官方讀法是:see sharp。 有沒有發現開發多年,然後感覺名字不對。 tip:為個人重新整理,如學習還是看官網,c# 文件天下無敵。 ### 正文 c#和java一樣,他們之間有很多故事,尤其是官司,c#同樣

【php】面向象(

打電話 成員方法 駝峰命名 bject 內部 自動 正在 自己 div 1. 學習面向對象的目標:  a) 語法的學習:  b) 編程思想的學習:    i. 過程化:    ii. 面向對象:2. 比較(有對象和沒對象的區別)  a) 沒對象:    i. 我餓了 自己

JS函數和象(

inf ack bsp 用法 .cn 求和 封裝 obj [0 在本文章中,將對JS中的函數和對象進行一些講解,不對之處還請之處 一.JS中的函數 1.1無參函數 其形式如下代碼所示 function box(){ alert("我是一個函數,只有被調用才會執行

Python -面向象( 基本概念)

多態 adding 提示 csdn bject key 析構函數 不可移植 一次 一 Python簡單介紹 Python是一個可移植的面向對象的腳本語言。 Python盡管是一個腳本語言,但也是一個全然面向對象的語言。由於它設計之初把易

面向象()封裝 命名空間 訪問修飾符等

制度 color return 重用 等級 部分 cnblogs 控制 turn 一、封裝 封裝,即隱藏對象的屬性和實現細節,僅對外公開接口,控制在程序中屬性的讀和修改的訪問級別;將抽象得到的數據和行為(或功能)相結合,形成一個有機的整體,也就是將數據與操作數據的源代碼進行

PHP面向象(

集合 命名 相同 get 實體 實例 3.1 接口 pri public 公有的:本類,子類,外部對象都可以調用protected 受保護的:本類 子類,可以執行,外部對象不可以調用private 私有的:只能本類執行,子類與外部對象都不可調用面向對象編程的三大特點 1