1. 程式人生 > >10月11日資料探勘課堂筆記完善

10月11日資料探勘課堂筆記完善

1、區塊鏈

什麼是區塊鏈

原文連結如下,這篇文章裡還回答了“比特幣和Q幣有什麼區別”。

區塊鏈簡介

區塊鏈(Blockchain)是指通過去中心化和去信任的方式集體維護一個可靠資料庫的技術方案。通俗一點說,區塊鏈技術就指一種全民參與記賬的方式,系統中的每個人都可以有機會參與記賬。在一定時間段內如果有任何資料變化,系統中每個人都可以來進行記賬,系統會評判這段時間內記賬最快最好的人,把他記錄的內容寫到賬本,並將這段時間內賬本內容發給系統內所有的其他人進行備份。這樣系統中的每個人都了一本完整的賬本。這種方式,我們就稱它為區塊鏈技術。區塊鏈主要的優勢是無需中介參與、過程高效透明且成本很低、資料高度安全。

什麼是比特幣說的“挖礦”

比特幣中的“挖礦”實際上就是記賬的過程,比特幣的運算採用了一種稱為“工作量證明(Proof of Work,PoW)”的機制,系統為了找出誰有更強大的計算能力,每次會出一道數學題,只有最快解出這道題目的計算機才能進行記賬。而搶到記賬權的計算機會獲得25個比特幣的獎勵。通常把這個行為稱為“挖礦”,把獲得的比特幣視為挖礦成功獲得的獎勵。

區塊鏈和雲端計算雲端儲存有什麼關係?

雲端計算通常定義為通過網際網路來提供動態易擴充套件且經常是虛擬化的資源,但是提供雲端計算平臺的往往是一箇中心化機構。
區塊鏈組成的網路一般是沒有特定的機構,所以區塊鏈更接近分散式計算系統的定義,屬於分散式計算的一種。不過,區塊鏈是能夠實現雲端儲存的,不同於目前中心化提供雲端儲存空間,區塊鏈有一些提供去中心化的雲端儲存方案。

2、資料倉庫發展5個階段

第一階段:對報表進行批處理和預定義查詢,可以看出發生了什麼;
第二階段:分析為何發生這種情況;
第三階段:分析建模,預測;
第四階段:運營支援,連續更新和流程互動;
第五階段:基於前面四個階段,根據主題與目標,主動控制將來會發生什麼。

3、資料倉庫系統的組成

補充

  1. 4個B:資料量大,形式多,速度快,價值大
  2. 元資料(Metadata):描述資料的資料,可分為固有性,管理性,描述性元資料(參考文獻見下面連結)
  3. 指標六要素:指標名稱、計算方法、計量單位、時間限制、指標數值、空間限制
  4. 商業智慧(Business Intelligence):報表查詢和展現+資料分析挖掘+資料預警+資料管理。資料分析主要是人來操作,而BI則是如何通過資料發現問題,讓企業的每一個決策都有資料參考。
  5. OLAP(聯機分析處理)是資料倉庫系統的主要應用,支援複雜的分析操作,側重決策支援,並且提供直觀易懂的查詢結果。
  6. OLTP(聯機事務處理)是傳統的關係型資料庫的主要應用,主要是基本的、日常的事務處理,例如銀行交易。OLAP與OLTP對比

https://blog.csdn.net/it_man/article/details/8660536

資料倉庫系統:以資料倉庫為核心,將各種應用系統集中在一起,通過資料分析和報表模組查詢工具OLAP、決策分析、資料探勘完成對資訊的提取以滿足決策的需要。
資料倉庫系統結構
資料來源:外部資料,業務資料庫,文件資料
資料儲存和管理:元資料,資料倉庫,資料集市
OLAP伺服器:聯機分析處理(用不同的手段來進行描述統計)
前端分析工具:資料報表,資料分析,資料探勘

聯機分析處理

  • 概念
    聯機分析處理的概念最早是由關係資料庫之父愛德華·庫德(E·F·Codd)博士於1993年提出的,是一種用於組織大型商務資料庫和支援商務智慧的技術。
  • 聯機分析處理邏輯概念和典型操作
    OLAP展現在使用者面前的是一幅幅多維檢視。
    1)(Dimension):是人們觀察資料的特定角度,是考慮問題時的一類屬性,屬性集合構成一個維(時間維、地理維等)。
    2)維的層次(Level):人們觀察資料的某個特定角度(即某個維)還可以存在細節程度不同的各個描述方面(時間維:日期、月份、季度、年)。
    3)維的成員(Member):維的一個取值,是資料項在某維中位置的描述。(“某年某月某日”是在時間維上位置的描述)。
    4)度量(Measure):多維陣列的取值。(2000年1月,上海,膝上型電腦,$100000)。
    OLAP的基本多維分析操作有鑽取(Drill-up和Drill-down)、切片(Slice)和切塊(Dice)、以及旋轉(Pivot)等。
    1)鑽取:是改變維的層次,變換分析的粒度。它包括向下鑽取(Drill-down)和向上鑽取(Drill-up)/上卷(Roll-up)。Drill- up是在某一維上將低層次的細節資料概括到高層次的彙總資料,或者減少維數;而Drill-down則相反,它從彙總資料深入到細節資料進行觀察或增加新維。
    2)切片和切塊:是在一部分維上選定值後,關心度量資料在剩餘維上的分佈。如果剩餘的維只有兩個,則是切片;如果有三個或以上,則是切塊。
    3)旋轉:是變換維的方向,即在表格中重新安排維的放置(例如行列互換)。
  • 聯機分析處理系統的體系結構和分類
    關係聯機分析處理(ROLAP):星形模型,雪花模型
    多維聯機分析處理(MOLAP)
    混合聯機分析處理(HOLAP)
星形模型 雪花模型
特點 1、維度表只和事實表關聯,彼此之間沒有關係 1、維表不與事實表直接關聯,而是與另一個維表關聯
2、使用者能從維表開始,獲得關鍵字,連結到事實表進行查詢資料,提高查詢效能 2、可以進一步檢視資料的粒度
3、每個維表有一個維主鍵,所有維主鍵組成事實表的主鍵 3、減少了資料的冗餘,但讀取較難,時間較慢
4、維表具有非規範性。 4、維表不規範

OLAP具體介紹