1. 程式人生 > 其它 >大資料方面核心技術有哪些

大資料方面核心技術有哪些

簡單來說,從大資料的生命週期來看,無外乎四個方面:大資料採集、大資料預處理、大資料儲存、大資料分析,共同組成了大資料生命週期裡最核心的技術,下面分開來說:

一、大資料採集

大資料採集,即對各種來源的結構化和非結構化海量資料,所進行的採集。

  1. 資料庫採集:流行的有Sqoop和ETL,傳統的關係型資料庫MySQL和Oracle 也依然充當著許多企業的資料儲存方式。當然了,目前對於開源的Kettle和Talend本身,也集成了大資料整合內容,可實現hdfs,hbase和主流Nosq資料庫之間的資料同步和整合。
  2. 網路資料採集:一種藉助網路爬蟲或網站公開API,從網頁獲取非結構化或半結構化資料,並將其統一結構化為本地資料的資料採集方式。
  3. 檔案採集:包括實時檔案採集和處理技術flume、基於ELK的日誌採集和增量採集等等。

二、大資料預處理

大資料預處理,指的是在進行資料分析之前,先對採集到的原始資料所進行的諸如“清洗、填補、平滑、合併、規格化、一致性檢驗”等一系列操作,旨在提高資料質量,為後期分析工作奠定基礎。資料預處理主要包括四個部分:資料清理、資料整合、資料轉換、資料規約

  1. 資料清理:指利用ETL等清洗工具,對有遺漏資料(缺少感興趣的屬性)、噪音資料(資料中存在著錯誤、或偏離期望值的資料)、不一致資料進行處理。
  2. 資料整合:是指將不同資料來源中的資料,合併存放到統一資料庫的,儲存方法,著重解決三個問題:模式匹配、資料冗餘、資料值衝突檢測與處理。
  3. 資料轉換:是指對所抽取出來的資料中存在的不一致,進行處理的過程。它同時包含了資料清洗的工作,即根據業務規則對異常資料進行清洗,以保證後續分析結果準確性。
  4. 資料規約:是指在最大限度保持資料原貌的基礎上,最大限度精簡資料量,以得到較小資料集的操作,包括:資料方聚集、維規約、資料壓縮、數值規約、概念分層等。

三、大資料儲存

大資料儲存,指用儲存器,以資料庫的形式,儲存採集到的資料的過程,包含三種典型路線:

1、基於MPP架構的新型資料庫叢集

採用Shared Nothing架構,結合MPP架構的高效分散式計算模式,通過列儲存、粗粒度索引等多項大資料處理技術,重點面向行業大資料所展開的資料儲存方式。具有低成本、高效能、高擴充套件性等特點,在企業分析類應用領域有著廣泛的應用。

較之傳統資料庫,其基於MPP產品的PB級資料分析能力,有著顯著的優越性。自然,MPP資料庫,也成為了企業新一代資料倉庫的最佳選擇。

2、基於Hadoop的技術擴充套件和封裝

基於Hadoop的技術擴充套件和封裝,是針對傳統關係型資料庫難以處理的資料和場景(針對非結構化資料的儲存和計算等),利用Hadoop開源優勢及相關特性(善於處理非結構、半結構化資料、複雜的ETL流程、複雜的資料探勘和計算模型等),衍生出相關大資料技術的過程。

伴隨著技術進步,其應用場景也將逐步擴大,目前最為典型的應用場景:通過擴充套件和封裝 Hadoop來實現對網際網路大資料儲存、分析的支撐,其中涉及了幾十種NoSQL技術。

3、大資料一體機

這是一種專為大資料的分析處理而設計的軟、硬體結合的產品。它由一組整合的伺服器、儲存裝置、作業系統、資料庫管理系統,以及為資料查詢、處理、分析而預安裝和優化的軟體組成,具有良好的穩定性和縱向擴充套件性。

四、大資料分析挖掘

從視覺化分析、資料探勘演算法、預測性分析、語義引擎、資料質量管理等方面,對雜亂無章的資料,進行萃取、提煉和分析的過程。

1、視覺化分析

視覺化分析,指藉助圖形化手段,清晰並有效傳達與溝通訊息的分析手段。主要應用於海量資料關聯分析,即藉助視覺化資料分析平臺,對分散異構資料進行關聯分析,並做出完整分析圖表的過程。
具有簡單明瞭、清晰直觀、易於接受的特點。

2、資料探勘演算法

資料探勘演算法,即通過建立資料探勘模型,而對資料進行試探和計算的,資料分析手段。它是大資料分析的理論核心。

資料探勘演算法多種多樣,且不同演算法因基於不同的資料型別和格式,會呈現出不同的資料特點。但一般來講,建立模型的過程卻是相似的,即首先分析使用者提供的資料,然後針對特定型別的模式和趨勢進行查詢,並用分析結果定義建立挖掘模型的最佳引數,並將這些引數應用於整個資料集,以提取可行模式和詳細統計資訊。

3、預測性分析

預測性分析,是大資料分析最重要的應用領域之一,通過結合多種高階分析功能(特別統計分析、預測建模、資料探勘、文字分析、實體分析、優化、實時評分、機器學習等),達到預測不確定事件的目的。

幫助分使用者析結構化和非結構化資料中的趨勢、模式和關係,並運用這些指標來預測將來事件,為採取措施提供依據。

4、語義引擎

語義引擎,指通過為已有資料新增語義的操作,提高使用者網際網路搜尋體驗。

5、資料質量管理

指對資料全生命週期的每個階段(計劃、獲取、儲存、共享、維護、應用、消亡等)中可能引發的各類資料質量問題,進行識別、度量、監控、預警等操作,以提高資料質量的一系列管理活動。
轉自:https://blog.csdn.net/msjhw_com/article/details/114968149