1. 程式人生 > >剖析大資料平臺的資料處理

剖析大資料平臺的資料處理

我在一次社群活動中做過一次分享,演講題目為《大資料平臺架構技術選型與場景運用》。在演講中,我主要分析了大資料平臺架構的生態環境,並主要以資料來源、資料採集、資料儲存與資料處理四個方面展開分析與講解,並結合具體的技術選型與需求場景,給出了我個人對大資料平臺的理解。本文講解資料處理部分。

無論是採集資料,還是儲存資料,都不是大資料平臺的最終目標。失去資料處理環節,即使珍貴如金礦一般的資料也不過是一堆廢鐵而已。資料處理是大資料產業的核心路徑,然後再加上最後一公里的資料視覺化,整個鏈條就算徹底走通了。

如下圖所示,我們可以從業務、技術與程式設計模型三個不同的視角對資料處理進行歸類:

業務角度的分類與具體的業務場景有關,但最終會制約技術的選型,尤其是資料儲存的選型。例如,針對查詢檢索中的全文字搜尋,ElasticSearch會是最佳的選擇,而針對統計分析,則因為統計分析涉及到的運算,可能都是針對一列資料,例如針對銷量進行求和運算,就是針對銷量這一整列的資料,此時,選擇列式儲存結構可能更加適宜。

在技術角度的分類中,嚴格地講,SQL方式並不能分為單獨的一類,它其實可以看做是對API的封裝,通過SQL這種DSL來包裝具體的處理技術,從而降低資料處理指令碼的遷移成本。畢竟,多數企業內部的資料處理系統,在進入大資料時代之前,大多以SQL形式來訪問儲存的資料。大體上,SQL是針對MapReduce的包裝,例如Hive、Impala或者Spark SQL。

Streaming流處理可以實時地接收由上游源源不斷傳來的資料,然後以某個細小的時間視窗為單位對這個過程中的資料進行處理。消費的上游資料可以是通過網路傳遞過來的位元組流、從HDFS讀取的資料流,又或者是訊息佇列傳來的訊息流。通常,它對應的就是程式設計模型中的實時程式設計模型。

機器學習與深度學習都屬於深度分析的範疇。隨著Google的AlphaGo以及TensorFlow框架的開源,深度學習變成了一門顯學。我瞭解不多,這裡就不露怯了。機器學習與常見的資料分析稍有不同,通常需要多個階段經歷多次迭代才能得到滿意的結果。下圖是深度分析的架構圖:

針對儲存的資料,需要採集資料樣本並進行特徵提取,然後對樣本資料進行訓練,並得到資料模型。倘若該模型經過測試是滿足需求的,則可以運用到資料分析場景中,否則需要調整演算法與模型,再進行下一次的迭代。

程式設計模型中的離線程式設計模型以Hadoop的MapReduce為代表,記憶體程式設計模型則以Spark為代表,實時程式設計模型則主要指的是流處理,當然也可能採用Lambda架構,在Batch Layer(即離線程式設計模型)與Speed Layer(實時程式設計模型)之間建立Serving Layer,利用空閒時間與空閒資源,又或者在寫入資料的同時,對離線程式設計模型要處理的大資料進行預先計算(聚合),從而形成一種融合的檢視儲存在資料庫中(如HBase),以便於快速查詢或計算。

不同的業務場景(業務場景可能出現混合)需要的資料處理技術不盡相同,因而在一個大資料系統下可能需要多種技術(程式設計模型)的混合。

我們在為某廠商實施輿情分析時,根據客戶需求,與資料處理有關的部分就包括:語義分析、全文字搜尋與統計分析。通過網路爬蟲抓取過來的資料會寫入到Kafka,而消費端則通過Spark Streaming對資料進行去重去噪,之後交給SAS的ECC伺服器進行文字的語義分析。分析後的資料會同時寫入到HDFS(Parquet格式的文字)和ElasticSearch。同時,為了避免因為去重去噪演算法的誤差而導致部分有用資料被“誤殺”,在MongoDB中還儲存了一份全量資料。如下圖所示:

Airbnb的大資料平臺也根據業務場景提供了多種處理方式,整個平臺的架構如下圖所示:

Panoramix(現更名為Caravel)為Airbnb提供資料探查功能,並對結果進行視覺化,Airpal則是基於Web的查詢執行工具,它們的底層都是通過Presto對HDFS執行資料查詢。Spark叢集則為Airbnb的工程師與資料科學家提供機器學習與流處理的平臺。

行文至此,整個大資料平臺系列的講解就快結束了。最後,我結合資料來源、資料採集、資料儲存與資料處理這四個環節給出了一個整體結構圖,如下圖所示:


這幅圖以查詢檢索場景、OLAP場景、統計分析場景與深度分析場景作為核心的四個場景,並以不同顏色標識不同的程式設計模型。從左到右,經歷資料來源、資料採集、資料儲存和資料處理四個相對完整的階段,可供大資料平臺的整體參考。

相關推薦

剖析資料平臺資料處理

我在一次社群活動中做過一次分享,演講題目為《大資料平臺架構技術選型與場景運用》。在演講中,我主要分析了大資料平臺架構的生態環境,並主要以資料來源、資料採集、資料儲存與資料處理四個方面展開分析與講解,並結合具體的技術選型與需求場景,給出了我個人對大資料平臺的理解。本文講解資料處理部分。 無論是採集資料,還是

架構師實踐日 11.9 南京站報名 | 技術牛帶你剖析資料平臺內部演進中的挑戰與實踐

從網際網路時代到物聯網時代,資料成為了企業的核心資產,挖掘資料價值成為了企業資料探索、技術應用的重中之重,甚至將影響到企業未來的發展和商業模式。但大資料體量大、多樣性、價值密度低、速度快等特徵,也給大資料的應用研發工作帶來了不少挑戰。  如何應對大資料

剖析資料平臺的資料來源

我在一次社群活動中做過一次分享,演講題目為《大資料平臺架構技術選型與場景運用》。在演講中,我主要分析了大資料平臺架構的生態環境,並主要以資料來源、資料採集、資料儲存與資料處理四個方面展開分析與講解,並結合具體的技術選型與需求場景,給出了我個人對大資料平臺的理解。本文是演講內容的第一部分。 大資料平臺是一個

秒級處理海量資料,浙江移動資料平臺是怎麼做到的

專案背景 近年來,隨著雲端計算、移動網際網路、物聯網等技術的發展,以及智慧手機、平板電腦等終端裝置的不斷湧現,各種型別的電商、社交媒體等應用快速發展,產生了海量的資料,並且資料量增長的速度越來越快,龐大的資料資源引起了各個行業越來越多的關注,並促進了相關技術的發展與創新

資料管理平臺-資料處理資料集市

 對於資料的理解,不同行業不同人都有不同的見解。從計算機角度來說,全部資料包括食品、文字、資料....都是1和0,或者說是高低電平。對於化學家來說所有的資料也是各種元素的不同狀態的組成,哪怕是高低電平儲存到硬體上也是si材料或記憶材料的行變。但對於廣大群眾、對於人本身,還是

資料線上分析處理和常用工具

大資料線上分析處理的特點 . 資料來源源不斷的到來; 資料需要儘快的得到處理,不能產生積壓; 處理之後的資料量依然巨大,仍然後TB級甚至PB級的資料量; 處理的結果能夠儘快的展現; 以上四個特點可以總結為資料的收集->資料的傳輸->資料的處理-&g

資料脫敏介紹(資料平臺 )

資料脫敏(Data Masking),又稱資料漂白、資料去隱私化或資料變形。百度百科對資料脫敏的定義為:指對某些敏感資訊通過脫敏規則進行資料的變形,實現敏感隱私資料 的可靠保護。這樣,就可以在開發、測試和其它非生產環境以及外包環境中安全地使用脫敏後的真實資料集。 可以看到資料脫敏具有幾個關鍵點:

資料來源/資料平臺

【彙總】資料來源/大資料平臺 一、網路趨勢分析   站長工具:5118 | chinaz   指數工具:艾瑞指數 | 百度指數 | 微指數 | 搜狗指數    

資料平臺架構思考

筆者早期從事資料開發時,使用spark開發一段時間,感覺大資料開發差不多學到頭了,該會的似乎都會了。在後來的實踐過程中,發現很多事情需要站在更高的視角來看問題,不然很容易陷入“不識廬山真面目”的境界。最近在思考資料資產管理平臺的建設,進行血緣分析開發,有如下感悟: 大資料平臺從資料層面來說,包括資料本身和元

【福利】送Spark資料平臺視訊學習資料

沒有套路真的是送!! 大家都知道,大資料行業spark很重要,那話我就不多說了,貼心的大叔給你找了份spark的資料。   多囉嗦兩句,一個好的程式猿的基本素養是學習能力和自驅力。視訊給了你們,能不能堅持下來學習,就只能靠自己了,另外大叔每週會不定期更新《每日五分鐘搞定

資料的實時處理STORM簡介

分享一下我老師大神的人工智慧教程!零基礎,通俗易懂!http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識,造福人民,實現我們中華民族偉大復興!        

美團資料平臺

今天給大家介紹的內容主要包括以下四個部分首先是介紹一下美團大資料平臺的架構,然後回顧一下歷史,看整個平臺演進的時間演進線,每一步是怎麼做的,以及一些挑戰和應對策略,最後總結一下,聊一聊我對平臺化的看法。     謝語宸是來自美團的大資料構建平臺的架構師。他在QCon2016北

【備忘】小象視訊教程 Hadoop 2.X資料平臺V3

第1講 :hadoop生態系統以及版本演化 第2講:HDFS 2.0應用場景、原理、基本架構及使用方法 第3講:Yarn應用場景、基本架構與資源排程 第4講: MapReduce 2.0基本原理與架構 第5講 :MapReduce 2.0程式設計實踐(涉及多語言程式設計) 第6講:Hbase應用場

雙11奇蹟背後的資料平臺,不喧譁,自有聲!

00:02:05 成交額超100億00:57:56 成交額超666億01:47:26 成交額超1000億15:49:39 成交額超1682億22:28:37 成交額超2000億 2018年雙11新紀錄2135億 高速跳轉的數字,不斷重新整理的狀態,光纜中狂奔的程式碼,鍵盤上飛舞的手指…

DataPipeline在資料平臺資料流實踐

文 | 呂鵬 DataPipeline架構師 進入大資料時代,實時作業有著越來越重要的地位。本文將從以下幾個部分進行講解DataPipeline在大資料平臺的實時資料流實踐。 一、企業級資料面臨的主要問題和挑戰 1.資料量不斷攀升 隨著網際網路+的蓬勃發展和使用者規模的急劇擴張,企業資

資料平臺SQL編碼開發規範--轉自阿里雲DataWorks

本文向您介紹SQL編碼的基本原則和詳細的編碼規範。 編碼原則 SQL程式碼的編碼原則如下: 程式碼功能完善,健壯。 程式碼行清晰、整齊,具有一定的可觀賞性。 程式碼編寫要充分考慮執行速度最優的原則。 程式碼行整體層次分明、結構化強。 程式碼中應有必要的註釋以

首次公開!單日600PB的計算力 — 阿里巴巴資料計算平臺雙11專題之EB級資料平臺的進擊

作者:阿里巴巴計算平臺 高階技術專家 迎輝 MaxCompute作為阿里巴巴的主力計算平臺,在2018年的雙11中,再次不負眾望,經受住了雙11期間海量資料和高併發量的考驗。為集團的各條業務線提供了強勁的計算力,不愧是為阿里巴巴歷年雙11輸送超級計算力的核武器。 本文為大家介紹,MaxCompute基於多

資料平臺hive原生搭建教程

環境準備 centos 7.1系統 需要三臺雲主機: master(8) 作為 client 客戶端 slave1(9) 作為 hive server 伺服器端 slave2(10) 安裝 mysql server 安裝包使用的是官網下載的 將hive上傳到master ,mys

資料平臺--Hadoop原生搭建教程

環境準備: 三臺虛擬機器 master(8)、slave1(9)、slave2(10) centos 7.1、jdk-8u171-linux-x64.tar.gz、hadoop-2.7.3.tar.gz 0x1環境準備 首先先在三臺虛擬機器中建立hadoop資料夾 mdkir /

資料平臺中資源控制在不同作業系統上的實現

大資料平臺中資源控制在不同作業系統上的實現 在大資料迅速發展的今天,很大一部分支援來自於底層技術的不斷髮展,其中非常重要的一點就是系統資源的管理和控制,大資料平臺的核心就是對資源的排程管理,在排程和管理之後如何對這些資源進行控制便成了另一個重要的問題。大資料系統中使用者成千上萬的作業程序