1. 程式人生 > >大資料處理基本過程

大資料處理基本過程

剛接觸大資料一個月,把一些基本知識,總體架構記錄一下,感覺坑很多,要學習的東西也很多,先簡單瞭解一下基本知識

什麼是大資料:大資料(big data),指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的資料集合,是需要新處

理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的資訊資產。

大資料的5V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)、Veracity(真實性),百度隨便找找都有。 

在這裡還是要推薦下我自己建的大資料學習交流群:199427210,群裡都是學大資料開發的,如果你正在學習大資料 ,小編歡迎你加入,大家都是軟體開發黨,不定期分享乾貨(只有大資料軟體開發相關的),包括我自己整理的一份2018最新的大資料進階資料和高階開發教程,歡迎進階中和進想深入大資料的小夥伴加入。


 

    1.是資料採集,搭建資料倉庫,資料採集就是把資料通過前端埋點,介面日誌呼叫流資料,資料庫抓取,客戶自己上傳資料,把這些資訊基礎資料把各種維度儲存起來,感覺有些資料沒用(剛開始做只想著功能,有些資料沒采集,  後來被老大訓了一頓)。

    2.資料清洗/預處理:就是把收到資料簡單處理,比如把ip轉換成地址,過濾掉髒資料等。

    3.有了資料之後就可以對資料進行加工處理,資料處理的方式很多,總體分為離線處理,實時處理,離線處理就是每天定時處理,常用的有阿里的maxComputer,hive,MapReduce,離線處理主要用storm,spark,hadoop,通過一些資料處理框架,可以吧資料計算成各種KPI,在這裡需要注意一下,不要只想著功能,主要是把各種資料維度建起來,基本資料做全,還要可複用,後期就可以把各種kpi隨意組合展示出來。

    4.資料展現,資料做出來沒用,要視覺化,做到MVP,就是快速做出來一個效果,不合適及時調整,這點有點類似於Scrum敏捷開發,資料展示的可以用datav,神策等,前端好的可以忽略,自己來畫頁面。

資料採集:

    1.批資料採集,就是每天定時去資料庫抓取資料快照,我們用的maxComputer,可以根據需求,設定每天去資料庫備份一次快照,如何備份,如何設定資料來源,如何設定出錯,在maxComputer都有文件介紹,使用maxComputer需要註冊阿里雲服務,https://help.aliyun.com/product/27797.html,連結是maxComputer文件。

    2.實時介面呼叫資料採集,可以用logHub,dataHub,流資料處理技術,DataHub具有高可用,低延遲,高可擴充套件,高吞吐的特點。

高吞吐:最高支援單主題(Topic)每日T級別的資料量寫入,每個分片(Shard)支援最高每日8000萬Record級別的寫入量。

實時性:通過DataHub ,您可以實時的收集各種方式生成的資料並進行實時的處理,

設計思路:首先寫一個sdk把公司所有後臺服務呼叫介面呼叫情況記錄下來,開闢執行緒池,把記錄下來的資料不停的往dataHub,logHub儲存,前提是設定好接收資料的dataHub表結構,https://help.aliyun.com/document_detail/47448.html?spm=a2c4g.11186623.3.2.nuizA4,這是dataHub文件,下圖是資料監控,會看到資料會不停流入

3.前臺資料埋點,這些就要根據業務需求來設定了,也是通過流資料傳輸到資料倉庫,如上述第二步。

資料處理:

資料採集完成就可以對資料進行加工處理,可分為離線批處理,實時處理。

    1.離線批處理maxComputer,這是阿里提供的一項大資料處理服務,是一種快速,完全託管的TB/PB級資料倉庫解決方案,編寫資料處理指令碼,設定任務執行時間,任務執行條件,就可以按照你的要求,每天產生你需要的資料,https://help.aliyun.com/document_detail/30267.html?spm=a2c4g.11174283.3.2.0aBtdh,連結dataworks為文件。下圖是檢測任務例項執行狀態

    2.實時處理:採用storm/spark,目前接觸的只有storm,strom基本概念網上一大把,在這裡講一下大概處理過程,首先設定要讀取得資料來源,只要啟動storm就會不停息的讀取資料來源。Spout,用來讀取資料。Tuple:一次訊息傳遞的基本單元,理解為一組訊息就是一個Tuple。stream,用來傳輸流,Tuple的集合。Bolt:接受資料然後執行處理的元件,使用者可以在其中執行自己想要的操作。可以在裡邊寫業務邏輯,storm不會儲存結果,需要自己寫程式碼儲存,把這些合併起來就是一個拓撲,總體來說就是把拓撲提交到伺服器啟動後,他會不停讀取資料來源,然後通過stream把資料流動,通過自己寫的Bolt程式碼進行資料處理,然後儲存到任意地方,關於如何安裝部署storm,如何設定資料來源,網上都有教程,這裡不多說。

資料展現:做了上述那麼多,終於可以直觀的展示了,由於前端技術不行,借用了第三方展示平臺datav,datav支援兩種資料讀取模式,第一種,直接讀取資料庫,把你計算好的資料,通過sql查出來,需要配置資料來源,讀取資料之後按照給定的格式,進行格式化就可以展現出來,https://help.aliyun.com/document_detail/30360.html,連結為datav文件。可以設定圖示的樣式,也可以設定引數,

第二種採用介面的形式,可以直接採用api,在資料區域配置為api,填寫介面地址,需要的引數即可,這裡就不多說了。

這次先記錄這麼多,以後再補充,內容為原創,若是有不對的地方還請評論糾正。

在這裡還是要推薦下我自己建的大資料學習交流群:199427210,群裡都是學大資料開發的,如果你正在學習大資料 ,小編歡迎你加入,大家都是軟體開發黨,不定期分享乾貨(只有大資料軟體開發相關的),包括我自己整理的一份2018最新的大資料進階資料和高階開發教程,歡迎進階中和進想深入大資料的小夥伴加入。
 

相關推薦

資料處理基本過程,一個月就可以掌握的資料技術

剛接觸大資料一個月,把一些基本知識,總體架構記錄一下,感覺坑很多,要學習的東西也很多,先簡單瞭解一下基本知識 什麼是大資料:大資料(big data),指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的資料集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高

資料處理基本過程

剛接觸大資料一個月,把一些基本知識,總體架構記錄一下,感覺坑很多,要學習的東西也很多,先簡單瞭解一下基本知識 什麼是大資料:大資料(big data),指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的資料集合,是需要新處 理模式才能具有更強的決策力、洞察

資料處理過程,業務性資料庫與分析性資料庫比較

一丶 一般情況下,資料探勘經過如下階段1,資料記錄到資料來源中,如(文字檔案,傳統的業務資料系統,和其他各種資料來源)2.這些資料經過ETL(extract,transform,load)過程儲存到資料倉庫中,如hive(這些資料倉庫並不儲存資料,只是在檔案系統上的儲存倉庫引

資料處理基本流程是什麼?

很多事情在執行的時候都是有一定的流程的,那麼大資料的處理也不例外,這是因為有關程式都是需要邏輯的,而大資料處理也需要邏輯,這也就需要流程了。那麼大資料處理的基本流程是什麼呢?下面就由小編為大家解答一下這個問題。 大資料處理的第一個步驟就是資料抽取與整合。這是因為大資料處理的資料來源

資料處理過程之核心技術ETL詳解

核心技術 架構挑戰: 1、對現有資料庫管理技術的挑戰。 2、經典資料庫技術並沒有考慮資料的多類別(variety)、SQL(結構化資料查詢語言),在設計的一開始是沒有考慮到非結構化資料的儲存問題。 3、實時性技術的挑戰:一般而言,傳統資料倉庫系統,BI應用,對處理時間的要求

資料處理過程只需這四步,讓你從0到1!

大資料這幾年火得不要不要,如同“站在風口上的豬”,但很多人只是停留在耳聞的階段,並不知道大資料真正的用途或是實操在哪,這其中也包括

DKhadoop資料處理平臺監控資料介紹

標題:DKhadoop大資料處理平臺監控資料介紹 2018年國內大資料公司50強榜單排名已經公佈了出來,大快以黑馬之姿闖入50強,並摘得多項桂冠。Hanlp自然語言處理技術也榮膺了“2018中國資料星技術”獎。對這份榜單感興趣的可以找一下看看。本篇承接上一篇《DKM平臺監控引數說明》,繼續就

淺談資料處理

剛接觸大資料處理,將大資料處理的框架記錄下來,之後深入的研究。 大資料處理的必要性 目前網際網路中資料的數量正在飛速的增長,首先是G為單位,然後是T級別、P級別、E級別。資料雖然很多,但是我們往往只慣性我們感興趣的那一部分,因此我們需要對海量資料進行處理獲取有價值的資訊來為我們所用。比如

資料處理神器map-reduce實現(僅python和shell版本)

熟悉java的人直接可以使用java實現map-reduce過程,而像我這種不熟悉java的怎麼辦?為了讓非java程式設計師方便處理資料,我把使用python,shell實現streaming的過程,也即為map-reduce過程,整理如下: 1.如果資料不在hive裡面,而在

Hadoop Streaming 做資料處理詳解

-------------------------------------------------------------------------- 以下內容摘自寒小陽老師大資料課程內容 -----------------------------

使用者訪問session分析的基礎資料結構及資料基本架構

使用者訪問session分析模組 使用者訪問session介紹: 使用者在電商網站上,通常會有很多的點選行為: 首先通常都是進入首頁; 然後可能點選首頁上的一些商品; 點選首頁上的一些品類; 隨時在搜尋框裡面搜尋關鍵詞; 將一些

最主流的五個資料處理框架的優勢對比

我深入分析了五個大資料處理框架:Hadoop,Spark,Flink,Storm,Samaza Hadoop 頂尖的框架之一,大資料的代名詞。Hadoop,MapReduce,以及其生態系統和相關的技術,比如Pig,Hive,Flume,HDFS等。Hadoop是第一個,在工業

Python資料處理庫PySpark實戰

https://cloud.tencent.com/developer/article/1096712 Spark的安裝和使用(Python版) http://dblab.xmu.edu.cn/blog/1689-2/ https://blog.csdn.net/qq_14959801/

資料處理——雙層桶

轉載:http://diducoder.com/mass-data-topic-6-multi-dividing.html 【什麼是雙層桶】 事實上,與其說雙層桶劃分是一種資料結構,不如說它是一種演算法設計思想。面對一堆大量的資料我們無法處理的時候,我們可以將其分成一個個小的單元,

資料處理——tire樹

網上的資料較多,良莠不齊,特此找到了幾篇講的清楚,講的有邏輯性的博文,記錄下來,方便自己以後查閱 講原理比較清楚的 https://www.cnblogs.com/moonandstar08/p/5525344.html 講應用比較清楚的 http://dongxicheng.o

資料處理為何選擇Spark,而不是Hadoop

一.基礎知識1.SparkSpark是一個用來實現快速而通用的叢集計算的平臺。在速度方面,Spark擴充套件了廣泛使用的MapReduce計算模型,而且高效地支援更多計算模式,包括互動式查詢和流處理。Spark專案包含多個緊密整合的元件。Spark的核心是一個對由很多計算任務組成的、執行在多個工作機器或者是一

(轉)資料處理之道(十分鐘學會Python)

轉自:http://blog.csdn.net/u010700335/article/details/42025391,如侵刪 (0)目錄 快速學Python 和 易犯錯誤(文字處理) Python文字處理和Java/C比對 十分鐘學會Python的基本型別 快速學會Python(

從Storm到Flink:資料處理的開源系統及程式設計模型(文末福利)

本文節選自CCF大資料教材系列叢書之《大資料處理》,本書由華中科技大學金海教授主編,包括大資料處理基礎技術、大資料處理程式設計與典型應用處理、大資料處理系統與優化三個方面。本教材以大資料處理程式設計為核心,從基礎、程式設計到優化等多個方面對大資料處理技術進行系統介紹,使得讀者能

資料演算法:Hadoop_Spark資料處理技巧》艾提拉筆記.docx 第1章二次排序:簡介 19 第2章二次排序:詳細示例 42 第3章 Top 10 列表 54 第4章左外連線 96 第5

《資料演算法:Hadoop_Spark大資料處理技巧》艾提拉筆記.docx       第1章二次排序:簡介 19 第2章二次排序:詳細示例 42 第3章 Top 10 列表 54 第4章左外連線 96 第5章反轉排序 127 第6章

資料處理技術如何學習?

首先我們要學習Python語言和Linux作業系統,這兩個是學習大資料的基礎,學習的順序不分前後。 Python:Python 的排名從去年開始就藉助人工智慧持續上升,現在它已經成為了語言排行第一名。 從學習難易度來看,作為一個為“優雅”而生的語言,Python語法簡捷而