【數據挖掘課程】(2)數據

阿新 • • 發佈：2019-01-19

dimen local 兒童 sel str png true cts 穩定

摘要

1.屬性和對象(attributes and objects)

2.數據集類型(types of data sets)

3.數據質量(data quality)

4.數據預處理(data preprocessing)

1.屬性和對象

屬性和對象構成了數據，在完成一個數據挖掘任務時，

數據(datas)=對象(objects)+屬性(attributes)

技術分享圖片

屬性的別稱

維度dimensions, 特征features, 變量variables
屬性的分類

標稱(nominal), 序數(ordinal), 區間(interval), 比例(ratio)

2.數據集類型

記錄(record)

(1) 包含諸多記錄的表格，每個對象有一系列屬性

(2) 文檔數據：

詞袋(bag-of-words)

索引矩陣

(3)切片數據(transaction data)
圖和網絡(graph and network)

(1) 萬維網 (world wide web)

每個網頁包含指向其他網頁的url，這樣的指向關系構成網絡

(2) 社交網絡 (social or information networks)

(3) 分子結構 (molecular structures)
其他

(1) 空間位置信息(spatial)

(2) 圖片(image)

(3) 多媒體(multimedia)

3.數據質量

數據的可能缺陷

(1)噪聲(noise)和極端值(outliers)

噪聲對正確的值產生改動: 比如電視上出現的雪花狀圖案

極端值: 在數據集中明顯偏離其他數據項的數據項，極端值可能是需要去除的噪聲，也可能是數據挖掘任務的目標

(2)缺值(missing value)

缺值的原因分為，數據未收集到(eg. 人拒絕提供年齡信息)，或者數據項數值為空(eg. 兒童沒有年收入)

(3)值重復(duplicate data)

比如一個人有多個e-mail, 數據集中就會有該人的多條冗余記錄
怎樣補救數據集缺陷

(1)缺值處理: 去除這條記錄/給缺值一個估計值/分析時忽略缺值

(2)值重復: 合並冗余記錄

4.數據預處理

集成(aggregation)

把多個特征合並成一個特征，或把多個對象合並成一個對象。

集成後的數據有更少的變量，也更加穩定
抽樣(sampling)

抽樣所得的樣本一定要有代表性，足以代表整個數據集
降維(dimensionality Reduction)
(feature subset selection)
(feature creation)
(discretization and binarization)
(attribute transformation)

【數據挖掘課程】(2)數據

dimen local 兒童 sel str png true cts 穩定摘要 1.屬性和對象(attributes and objects) 2.數據集類型(types of data sets) 3.數據質量(data quality) 4.數據預處理(data

【Java知識點專項練習】之數據類型兩大類

char ger ava 練習類型包裝類 java 進行 cte Java的數據類型分為兩大類：基本類型和引用類型；基本類型只能保存一些常量數據，引用類型除了可以保存數據，還能提供操作這些數據的功能；為了操作基本類型的數據，java也對它們進行了封裝，得到八個類，

【TensorFlow/簡單網絡】MNIST數據集-softmax、全連接神經網絡，卷積神經網絡模型

idt form data labels pac amp sil ber 內置函數初學tensorflow，參考了以下幾篇博客：soft模型 tensorflow構建全連接神經網絡tensorflow構建卷積神經網絡tensorflow構

【MySQL經典案例分析】關於數據行溢出由淺至深的探討

發布解決 del set cloud 這樣的自己表結構 innodb 本文由雲+社區發表一、從常見的報錯說起 ? 故事的開頭我們先來看一個常見的sql報錯信息： ? 相信對於這類報錯大家一定遇到過很多次了，特別對於OMG這種已內容生產為主要工作核心的BG，在內

【數獨個人專案】2. 拿到題目之後

github地址：https://github.com/Duuang/Project-Sudoku 日期：2018-12-15 2. 拿到題目之後這個就是相當於自己做一個專案嘛，體驗專案的全套開發過程。於是我打算，一定不能上

【RPA實例教學】UIbot——數據抓取功能

dbcc 實例消息使用 cdb 安裝京東 strong 點擊 UiBot 0.7 版新增加了【數據抓取】功能，這項功能可以方便獲取網頁中的相似元素，將相似元素的數據采集到數組中，比如各種電商網站（淘寶、京東、拼多多等）的商品分類、商品列表信息（商品名、價格等），或者網

【RPA實例教學】UIbot——數據抓取功能（二）

img 教學 mar ext vpd 一個需要 water 選擇數據抓取功能使用說明點擊 UiBot 編輯器工具欄的【數據抓取】按鈕，打開數據抓取工具數據抓取工具需要先選取一個目標，點擊選擇目標按鈕即可。這個目標就是要采集的數據字段，如果要采集商品名，則先選

數據挖掘工程師如何選擇數據可視化工具？

數據數據挖掘可視化如何選擇數據可視化工具？如何選用數據可視化工具？在回答這個問題之前現需要回答另外一個問題，你需要用這些數據可視化工具來做什麽，實現什麽目的。也許你有一個完整的想法，已經通過驗證了，需要用更直觀易懂的方式來展現，從而講述一個邏輯或者是一個故事；也許你是有大量的數據，你想怎麽從

【左神算法課】子數組最大差值小於某閾值，求滿足條件的子數組個數

isempty all turn main .com color 子數組 sys ems 題目描述：　　解法思路：　　本題其實是滑動窗口的變形。主體思路為：　　１．從第一個元素開始依次向後遍歷，同時維護兩個窗口（由於要同時操作窗口的頭部和尾部，故采用雙端隊

[jzoj]5965. 【NOIP2018提高組D2T2】填數遊戲（推式子）

Problem 給定你一個 n ⋅ m

【NOIP2018提高組D2T2】填數遊戲

Description 小D特別喜歡玩遊戲。這一天，他在玩一款填數遊戲。這個填數遊戲的棋盤是一個n*m的矩形表格。玩家需要在表格的每個格子中填入一個數字（數字0或者數字1），填數時需要滿足一些限制。下面我們來具體描述這些限制。為了方便描述，我們先給出一些定義：我們用每個格子的

【Spring Boot課程】2.HelloWorld應用程式

HelloWorld應用程式給maven的settings.xml配置檔案的profiles標籤新增 <profile> <id>jdk‐1.8</id> <activation&g

JZOJ5965【NOIP2018提高組D2T2】填數遊戲

題目作為NOIP2018的題目，我覺得不需要把題目貼出來了。大意就是，在一個 n ∗ m

【java函數語言程式設計01】函數語言程式設計定義

函數語言程式設計 what? 在電腦科學中，函數語言程式設計是一種程式設計正規化一種構建計算機程式結構和元素的方式 - 將計算視為函式（數學）數學樂趣可變資料的評估。它是一種宣告性程式設計範例，這意味著使用表示式或宣告而不是語句來完成程式設計。在函式程式碼

【苦讀官方文檔】2.Android應用程序基本原理概述

project 做出系統默認體驗告訴 sta 執行過程顏色硬件配置官方文檔原文地址應用程序原理 Android應用程序是通過Java編程語言來寫。Android軟件開發工具把你的代碼和其它數據、資源文件一起編譯、打包成一個APK文件

【原創】【小程序開發教程】2、小程序域名配置之申請支持SSL（https）

證書頒發分享圖片 tro get 操作方法 alt 賽門鐵克似的 http 要把一個網站對接進小程序，一、網站的域名必須通過備案（ICP備案）。在買域名的時候，各個域名服務商都有提供相應的備案平臺，可以方便的提交備案。工信部官網：http://www.miitbeian

【資料結構和演算法】2談談演算法

演算法初體驗高斯演算法"1+2+3+...+100" 普通的解決方法 int i, sum = 0, n = 100; for(i=1; i <= n; i++) { sum = sum + i; } printf(“%d”, sum); 利用高斯的演算法 int i,

【呼叫中心KPI解析】2、系統接通量

指標含義客戶呼入客戶服務系統併成功聽到IVR放音的呼入數量。設定目的考查熱線的話務接入能力。計算方法計算統計時段內進入呼叫平臺且系統成功應答的呼入電話量。從使用者

【echarts踩坑記錄】2.複選框+動態隱藏、顯示資料

第一節的例子裡我將ajax請求返回的所有資料都載入成了餅狀圖，但是實際應用中我們可能並不需要全部顯示，可能需要做一個多選框選擇需要的name再傳給後臺……然而我也不想修改sql。於是就考慮在前端控制啦，後端只需要無腦一次查出全部的資料，讓前端折騰吧～使用者點哪裡我就顯示哪

【SQL注入技巧拓展】————2、MySQL注入攻擊與防禦

本文主要是做一個Mysql的注入總結，對於Mysql來說利用的方式太過於靈活，這裡總結了一些主流的一些姿勢。一、注入常用函式與字元下面幾點是注入中經常會用到的語句控制語句操作(select, case, if(), ...) 比較操作(=, like, mod()

【數據挖掘課程】(2)數據

摘要

1.屬性和對象

2.數據集類型

3.數據質量

4.數據預處理

相關推薦