1. 程式人生 > >大資料培訓:生活中這些場景都用到了大資料

大資料培訓:生活中這些場景都用到了大資料

  來源:千鋒大資料

         一、什麼是大資料

  大資料(big data),指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的資料集合,需要新處理模式才能具有更強的決策力、洞察力和流程優化能力的海量、高增長率和多樣化的資訊資產。

  中國電子技術標準化研究院2015年12月在《 大資料標準化白皮書V2.0 》 中提及維基百科(Wikipedia)給出的定義是:大資料,或稱巨量資料、海量資料、大資料,指的是所涉及的資料量規模巨大到無法通過人工在合理時間內達到擷取、管理、處理、並整理成為人類所能解讀的資訊。

  二、大資料的應用

  大資料技術在近年來一直在飛速地發展,目前大部分人對“大資料”的概念理解得不是很透徹。其實,在我們的日常生活中,很多人已經利用“大資料”做了很多事情,這些都是實實在在的“大資料”例項應用。

  1. 大型網站Web伺服器的日誌分析

  一個大型網站的Web伺服器叢集,每5分鐘收錄的點選日誌高達800GB左右,峰值點選每秒達到900萬次。每隔5分鐘將資料裝載到記憶體中,高速計算網站的熱點URL,並將這些資訊反饋給前端快取伺服器,以提高快取命中率。

http://p9.pstatp.com/large/pgc-image/1526263288564f13fd5688b

  2. 運營商流量經營分析

  每天的流量資料在2TB~5TB左右,拷貝到HDFS上,通過互動式分析引擎框架,能執行幾百個複雜的資料清洗和報表業務,總時間比類似硬體配置的小型機叢集和DB2快2~3倍。

http://p99.pstatp.com/large/pgc-image/15262632886226fe9574340

  3. 城市交通卡口視訊監控資訊的實時分析

  採用基於流式 Stream進行全省範圍的交通卡口通過視訊監控收錄的資訊進行實時分析、告警和統計(計算實時路況),對全省範圍內未年檢車輛或套牌車的分析延時在300毫秒左右,可以做出實時告警,所以開車的朋友最好要按時年檢。

  4. 網際網路輿情監控系統

  利用先進的雲端計算搜尋平臺和倒排索引,輿情監測系統支援對海量資訊庫的高效搜尋以及對於各種新聞部落格等網站進行垂直抓取;採用自有演算法的網頁結構分析,對抓取到的資料進行準確地分析和判斷,從而為政府和企業客戶提供精準有效的網際網路輿情資料服務。

  大資料的應用還有很多,已經真正地應用到了生活的許多場景當中。大資料技術解決了龐大資料量的儲存與計算的問題,從資料到資訊,從資訊到認知,從認知到預測。

  三、資料的來源

  1. 計算機產生的資料

  可能包含著關於因特網和其他使用者行動和行為的有趣資訊,從而提供了對他們的願望和需求潛在的有用認識。

  2.行動通訊資料

  能夠上網的智慧手機等移動裝置的使用越來越普遍。行動通訊裝置記錄的資料量和資料的立體完整度,常常優於各家網際網路公司掌握的資料。

  3.機器和感測器資料

  來自感應器、量表和其他設施的資料、定位/GPS系統資料等。這包括功能裝置會建立或生成的資料,例如智慧溫度控制器、智慧電錶、工廠機器和連線網際網路的家用電器的資料。幾年前,跟蹤遙測發動機執行僅限於價值數百萬美元的太空梭。現在,汽車生產商在車輛中配置了監視器,連續提供車輛機械系統整體執行情況。一旦資料可得,公司將千方百計從中漁利。這些機器感測資料屬於大資料的範圍。

  4.人為資料

  人為資料包括電子郵件、文件、圖片、音訊、視訊,以及通過微信、部落格、推特、維基、臉書、Linkedin等社交媒體產生的資料流。這些資料大多數為非結構性資料,需要用文字分析功能進行分析。至今最大的資料是音訊、視訊和符號資料。這些資料結構鬆散,數量巨大,很難從中挖掘有意義的結論和有用的資訊。

  5.網際網路上的“開放資料”來源

  四、資料的處理流程

  一般而言,大資料處理流程,可分為四個步驟:資料採集、資料匯入和清洗處理、資料統計和分析、資料探勘應用。這四個步驟看起來與現在資料處理分析沒有太大區別,但實際上大資料資料集更多更大,相互之間的關聯也就越多。

http://p99.pstatp.com/large/pgc-image/15262632886028dc2ff9b8e

  1、收集

  原始資料種類多樣,格式、位置、儲存、時效性等迥異。資料收集從異構資料來源中收集資料並轉換成相應的格式方便處理。

  2、資料匯入和清洗處理

  採集好資料,肯定有不少是重複或是無用的資料,此時需要通過對資料進行處理,將這些來自前端的資料匯入到集中的大型分散式資料庫,或者分散式儲存叢集,並進行簡單的清洗和預處理工作。而這個過程當中最大的挑戰就是匯入的資料量大,經常會達到百兆,甚至千兆級別。

  3、資料統計和分析

  統計與分析很多需要用到工具來處理,比如視覺化工具、spss工具、一些結構演算法模型,分類彙總,滿足企業的資料分析需求。這個過程最大的特點就是目的清晰,按照一定規則去分類彙總,才能得到有效分析,這部分處理起來也很佔用系統資源。

  4、資料探勘應用

  收集資料的最終目的就是透過資料探勘背後的聯絡,分析原因找出規律然後應用到實際業務中,經過各種演算法,預測結果,調整戰略方向。