1. 程式人生 > >大資料的一些基本概念

大資料的一些基本概念

一、什麼是大資料?大資料的特點?

      大資料(big data),指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的資料集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的資訊資產。

     大資料的5V特點(IBM提出):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)、Veracity(真實性)。

二、什麼是資料倉庫(Data warehouse)?特點?什麼是

OLTP,OLAP?他們之間的區別?

      資料倉庫,是為企業所有級別的決策制定過程,提供所有型別資料支援的戰略集合。它是單個數據儲存,出於分析性報告和決策支援目的而建立。 為需要業務智慧的企業,提供指導業務流程改進、監視時間、成本、質量以及控制。

1.效率足夠高。2.資料質量。3.擴充套件性。

4.面向主題

      操作型資料庫的資料組織面向事務處理任務,各個業務系統之間各自分離,而資料倉庫中的資料是按照一定的主題域進行組織的。主題是與傳統資料庫的面向應用相對應的,是一個抽象概念,是在較高層次上將企業資訊系統中的資料綜合、歸類並進行分析利用的抽象。每一個主題對應一個巨集觀的分析領域。資料倉庫排除對於決策無用的資料,提供特定主題的簡明檢視。

OLTP:

也稱為面向交易的處理系統,其基本特徵是顧客的原始資料可以立即傳送到計算中心進行處理,並在很短的時間內給出處理結果。

這樣做的最大優點是可以即時地處理輸入的資料,及時地回答。也稱為實時系統(Real time System)。衡量聯機事務處理系統的一個重要效能指標是系統性能,具體體現為實時響應時間(Response Time),即使用者在終端上送入資料之後,到計算機對這個請求給出答覆所需要的時間。OLTP是由資料庫引擎負責完成的。
OLTP 資料庫旨在使事務應用程式僅寫入所需的資料,以便儘快處理單個事務。

OLAP:

聯機分析處理(OLAP)系統是資料倉庫系統最主要的應用,專門設計用於支援複雜的分析操作,側重對決策人員和高層管理人員的決策支援,可以根據分析人員的要求快速、靈活地進行大資料量的複雜查詢處理,並且以一種直觀而易懂的形式將查詢結果提供給決策人員,以便他們準確掌握企業(公司)的經營狀況,瞭解物件的需求,制定正確的方案。

三、ETL(Extract-Transform-Load)和挖掘(DataMine)的

區別?

      資料分析是指根據分析目的,用適當的統計分析方法及工具,對收集來的資料進行處理與分析,提取有價值的資訊,發揮資料的作用。它主要實現三大作用:現狀分析、原因分析、預測分析(定量)。資料分析的目標明確,先做假設,然後通過資料分析來驗證假設是否正確,從而得到相應的結論。主要採用對比分析、分組分析、交叉分析、迴歸分析等常用分析方法;資料分析一般都是得到一個指標統計量結果,如總和、平均值等,這些指標資料都需要與業務結合進行解讀,才能發揮出資料的價值與作用;

      資料探勘是指從大量的資料中,通過統計學、人工智慧、機器學習等方法,挖掘出未知的、且有價值的資訊和知識的過程。資料探勘主要側重解決四類問題:分類、聚類、關聯和預測(定量、定性),資料探勘的重點在尋找未知的模式與規律;如我們常說的資料探勘案例:啤酒與尿布、安全套與巧克力等,這就是事先未知的,但又是非常有價值的資訊;主要採用決策樹、神經網路、關聯規則、聚類分析等統計學、人工智慧、機器學習等方法進行挖掘;輸出模型或規則,並且可相應得到模型得分或標籤,模型得分如流失概率值、總和得分、相似度、預測值等,標籤如高中低價值使用者、流失與非流失、信用優良中差等;

四、什麼是Hadoop?

       Hadoop是一個由Apache基金會所開發的分散式系統基礎架構。使用者可以在不瞭解分散式底層細節的情況下,開發分散式程式。充分利用叢集的威力進行高速運算和儲存。Hadoop實現了一個分散式檔案系統(Hadoop Distributed File System),簡稱HDFS。HDFS有高容錯性的特點,並且設計用來部署在低廉的(low-cost)硬體上;而且它提供高吞吐量(high throughput)來訪問應用程式的資料,適合那些有著超大資料集(large data set)的應用程式。HDFS放寬了(relax)POSIX的要求,可以以流的形式訪問(streaming access)檔案系統中的資料。Hadoop的框架最核心的設計就是:HDFS和MapReduce。HDFS為海量的資料提供了儲存,則MapReduce為海量的資料提供了計算。