1. 程式人生 > >2018 大資料應用及其解決方案你都會了嗎?

2018 大資料應用及其解決方案你都會了嗎?

目 錄

PART

01

1. 大資料概述

1.1. 概述
1.2. 大資料定義
1.3. 大資料技術發展

PART

02

2. 大資料應用

2.1. 大資料應用闡述
2.2. 大資料應用架構
2.3. 大資料行業應用

PART

 03

3. 大資料解決方案

3.1. 大資料技術組成
3.2. 大資料處理過程
3.3. 大資料處理的核心技術-Hadoop
3.4. 大資料處理技術發展前景

PART

04

4. 基於基站大資料應用及案例

4.1. 氣象災害應急簡訊釋出平臺
4.2. 旅遊客源分析

 

1

大資料概述

 

1.1. 概述

很多初學者,對大資料的概念都是模糊不清的,大資料是什麼,能做什麼,學的時候,該按照什麼線路去學習,學完往哪方面發展,想深入瞭解,想學習的同學歡迎加入大資料學習扣群:805127855,有大量乾貨(零基礎以及進階的經典實戰)分享給大家,並且有清華大學畢業的資深大資料講師給大家免費授課,給大家分享目前國內最完整的大資料高階實戰實用學習流程體系
 

大資料,IT行業的又一次技術變革,大資料的浪潮洶湧而至,對國家治理、企業決策和個人生活都在產生深遠的影響,並將成為雲端計算、物聯網之後資訊科技產業領域又一重大創新變革。未來的十年將是一個“大資料”引領的智慧科技的時代、隨著社交網路的逐漸成熟,移動頻寬迅速提升、雲端計算、物聯網應用更加豐富、更多的感測裝置、移動終端接入到網路,由此而產生的資料及增長速度將比歷史上的任何時期都要多、都要快。

資料技術發展歷史如圖一所示:

 

圖一

 

1.2. 大資料定義

 

“大資料”是一個涵蓋多種技術的概念,簡單地說,是指無法在一定時間內用常規軟體工具對其內容進行抓取、管理和處理的資料集合。IBM將“大資料”理念定義為4個V,即大量化(Volume)、多樣化(Variety)、快速化(Velocity)及由此產生的價值(Value)。如圖二;

 

圖二

 

要理解大資料這一概念,首先要從"大"入手,"大"是指資料規模,大資料一般指在10TB(1TB=1024GB)規模以上的資料量。大資料同過去的海量資料有所區別,其基本特徵可以用4個V來總結(Vol-ume、Variety、Value和Veloc-ity),即體量大、多樣性、價值密度低、速度快。

• 資料體量巨大。從TB級別,躍升到PB級別。

• 資料型別繁多,如前文提到的網路日誌、視訊、圖片、地理位置資訊,等等。

• 價值密度低。以視訊為例,連續不間斷監控過程中,可能有用的資料僅僅有一兩秒。

• 處理速度快。1秒定律。最後這一點也是和傳統的資料探勘技術有著本質的不同。物聯網、雲端計算、移動網際網路、車聯網、手機、平板電腦、PC以及遍佈地球各個角落的各種各樣的感測器,無一不是資料來源或者承載的方式。

大資料技術是指從各種各樣型別的巨量資料中,快速獲得有價值資訊的技術。解決大資料問題的核心是大資料技術。目前所說的"大資料"不僅指資料本身的規模,也包括採集資料的工具、平臺和資料分析系統。大資料研發目的是發展大資料技術並將其應用到相關領域,通過解決巨量資料處理問題促進其突破性發展。因此,大資料時代帶來的挑戰不僅體現在如何處理巨量資料從中獲取有價值的資訊,也體現在如何加強大資料技術研發,搶佔時代發展的前沿。

 

1.3. 大資料技術發展

 

大資料技術描述了一種新一代技術和構架,用於以很經濟的方式、以高速的捕獲、發現和分析技術,從各種超大規模的資料中提取價值,而且未來急劇增長的資料迫切需要尋求新的處理技術手段。如圖三所示:

 

 

圖三

在“大資料”(Big data)時代,通過網際網路、社交網路、物聯網,人們能夠及時全面地獲得大資訊。同時,資訊自身存在形式的變化與演進,也使得作為資訊載體的資料以遠超人們想象的速度迅速膨脹。

雲時代的到來使得資料創造的主體由企業逐漸轉向個體,而個體所產生的絕大部分資料為圖片、文件、視訊等非結構化資料。資訊化技術的普及使得企業更多的辦公流程通過網路得以實現,由此產生的資料也以非結構化資料為主。預計到2012年,非結構化資料將達到網際網路整個資料量的75%以上。用於提取智慧的“大資料”,往往是這些非結構化資料。傳統的資料倉庫系統、BI、鏈路挖掘等應用對資料處理的時間要求往往以小時或天為單位。但“大資料”應用突出強調資料處理的實時性。線上個性化推薦、股票交易處理、實時路況資訊等資料處理時間要求在分鐘甚至秒級。

全球技術研究和諮詢公司Gartner將“大資料”技術列入2012年對眾多公司和組織機構具有戰略意義的十大技術與趨勢之一,而其他領域的研究,如雲計算、下一代分析、記憶體計算等也都與“大資料”的研究相輔相成。Gartner在其新興技術成熟度曲線中將“大資料”技術視為轉型技術,這意味著“大資料”技術將在未來3—5年內進入主流。

而 “大資料”的多樣性決定了資料採集來源的複雜性,從智慧感測器到社交網路資料,從聲音圖片到線上交易資料,可能性是無窮無盡的。選擇正確的資料來源並進行交叉分析可以為企業創造最顯著的利益。隨著資料來源的爆發式增長,資料的多樣性成為“大資料”應用亟待解決的問題。例如如何實時地及通過各種資料庫管理系統來安全地訪問資料,如何通過優化儲存策略,評估當前的資料儲存技術並改進、加強資料儲存能力,最大限度地利用現有的儲存投資。從某種意義上說,資料將成為企業的核心資產。

“大資料”不僅是一場技術變革,更是一場商業模式變革。在“大資料”概念提出之前,儘管網際網路為傳統企業提供了一個新的銷售渠道,但總體來看,二者平行發展,鮮有交集。我們可以看到,無論是Google通過分析使用者個人資訊,根據使用者偏好提供精準廣告,還是Facebook將使用者的線下社會關係遷移在線上,構造一個半真實的實名帝國,但這些商業和消費模式仍不能脫離網際網路,傳統企業仍無法嫁接到網際網路中。同時,傳統企業通過傳統的使用者分析工具卻很難獲得大範圍使用者的真實需求。

企業從大規模製造過渡到大規模定製,必須掌握使用者的需求特點。在網際網路時代,這些需求特徵往往是在使用者不經意的行為中透露出來的。通過對資訊進行關聯、參照、聚類、分類等方法分析,才能得到答案。

“大資料”在網際網路與傳統企業間建立一個交集。它推動網際網路企業融合進傳統企業的供應鏈,並在傳統企業種下網際網路基因。傳統企業與網際網路企業的結合,網民和消費者的融合,必將引發消費模式、製造模式、管理模式的巨大變革。

大資料正成為IT行業全新的制高點,各企業和組織紛紛助推大資料的發展,相關技術呈現百花齊放局面,並在網際網路應用領域嶄露頭角,具體情況如下圖四所示:

 

 

圖四

大資料將帶來巨大的技術和商業機遇,大資料分析挖掘和利用將為企業帶來巨大的商業價值,而隨著應用資料規模急劇增加,傳統計算面臨嚴重挑戰,大規模資料處理和行業應用需求日益增加和迫切出現越來越多的大規模資料處理應用需求,傳統系統難以提供足夠的儲存和計算資源進行處理,雲端計算技術是最理想的解決方案。調查顯示:目前,IT專業人員對雲端計算中諸多關鍵技術最為關心的是大規模資料並行處理技術大資料並行處理沒有通用和現成的解決方案對於應用行業來說,雲端計算平臺軟體、虛擬化軟體都不需要自己開發,但行業的大規模資料處理應用沒有現成和通用的軟體,需要針對特定的應用需求專門開發,涉及到諸多並行化演算法、索引查詢優化技術研究、以及系統的設計實現,這些都為大資料處理技術的發展提供了巨大的驅動力。

 

 

2

大資料應用

 

2.1. 大資料應用闡述

 

大資料能做什麼?我們那麼多地方探討大資料,無非總結下來就做三件事:

第一,對資訊的理解。你發的每一張圖片、每一個新聞、每一個廣告,這些都是資訊,你對這個資訊的理解是大資料重要的領域。

第二,使用者的理解,每個人的基本特徵,你的潛在的特徵,每個使用者上網的習慣等等,這些都是對使用者的理解。

第三,關係。關係才是我們的核心,資訊與資訊之間的關係,一條微博和另外一條微博之間的關係,一個廣告和另外一個廣告的關係。一條微博和一個視訊之間的關係,這些在我們肉眼去看的時候是相對簡單的。

比如有條微博說這兩天朝鮮綁架我們船的事,那條微博也大概是談這件事的。人眼一眼就能看出來。但是用機器怎麼能看出來這是一件事,以及他們之間的因果關 系,這是很有難度的。然後就是使用者與使用者之間的關係。哪些人你願意收聽,是你的朋友,哪些是你感興趣的領域,你是一個音樂達人,你是一個吃貨,那個使用者也 是一個吃貨,你願意收聽他。這就是使用者與使用者之間的關係理解。還有使用者與資訊之間的理解,就是你對哪一型別的微博感興趣,你對哪一型別的資訊感興趣,如果 牽扯到商業化,你對哪一類的廣告或者商品感興趣。其實就是使用者與資訊之間的關係,他無非是做這件事。

 

 

大資料說的那麼懸,其實主要是做三件事:對使用者的理解、對資訊的理解、對關係的理解。如果我們在這三件事之間還要提一件事的話,一個叫趨勢。 他也是關係的一種變種,只是關係稍微遠一點,情感之間的分析,還有我們政府部門做的輿情監控。他可以監控大規模的資料,可以分析出人的動向。在美國的好萊 塢,這兩年也是基於FACEBOOK和TIWTTER的資料來預測即將上映的電影的票房。他也是一個趨勢的分析,只是我們把這個趨勢提前來。核心就是這三件事。

 

2.2. 大資料應用架構

 

 

 

 

2.3. 大資料行業應用

 

2.3.1. 醫療行業

1. Seton Healthcare是採用IBM最新沃森技術醫療保健內容分析預測的首個客戶。該技術允許企業找到大量病人相關的臨床醫療資訊,通過大資料處理,更好地分析病人的資訊。

2. 在加拿大多倫多的一家醫院,針對早產嬰兒,每秒鐘有超過3000次的資料讀取。通過這些資料分析,醫院能夠提前知道哪些早產兒出現問題並且有針對性地採取措施,避免早產嬰兒夭折。

3. 它讓更多的創業者更方便地開發產品,比如通過社交網路來收集資料的健康類App。也許未來數年後,它們蒐集的資料能讓醫生給你的診斷變得更為精確,比方說不是通用的成人每日三次一次一片,而是檢測到你的血液中藥劑已經代謝完成會自動提醒你再次服藥。

2.3.2. 能源行業

1. 智慧電網現在歐洲已經做到了終端,也就是所謂的智慧電錶。在德國,為了鼓勵利用太陽能,會在家庭安裝太陽能,除了賣電給你,當你的太陽能有多餘電的時候還可以買回來。通過電網收集每隔五分鐘或十分鐘收集一次資料,收集來的這些資料可以用來預測客戶的用電習慣等,從而推斷出在未來2~3個月時間裡,整個電網大概需要多少電。有了這個預測後,就可以向發電或者供電企業購買一定數量的電。因為電有點像期貨一樣,如果提前買就會比較便宜,買現貨就比較貴。通過這個預測後,可以降低採購成本。

2. 維斯塔斯風力系統,依靠的是BigInsights軟體和IBM超級計算機,然後對氣象資料進行分析,找出安裝風力渦輪機和整個風電場最佳的地點。利用大資料,以往需要數週的分析工作,現在僅需要不足1小時便可完成。

2.3.3. 通訊行業

1. XO Communications通過使用IBM SPSS預測分析軟體,減少了將近一半的客戶流失率。XO現在可以預測客戶的行為,發現行為趨勢,並找出存在缺陷的環節,從而幫助公司及時採取措施,保留客戶。此外,IBM新的Netezza網路分析加速器,將通過提供單個端到端網路、服務、客戶分析檢視的可擴充套件平臺,幫助通訊企業制定更科學、合理決策。

2. 電信業者透過數以千萬計的客戶資料,能分析出多種使用者行為和趨勢,賣給需要的企業,這是全新的資料經濟。

3. 中國移動通過大資料分析,對企業運營的全業務進行鍼對性的監控、預警、跟蹤。系統在第一時間自動捕捉市場變化,再以最快捷的方式推送給指定負責人,使他在最短時間內獲知市場行情。

4. NTT docomo把手機位置資訊和網際網路上的資訊結合起來,為顧客提供附近的餐飲店資訊,接近末班車時間時,提供末班車資訊服務。

2.3.4. 零售業

1. "我們的某個客戶,是一家領先的專業時裝零售商,通過當地的百貨商店、網路及其郵購目錄業務為客戶提供服務。公司希望向客戶提供差異化服務,如何定位公司的差異化,他們通過從 Twitter 和 Facebook 上收集社交資訊,更深入的理解化妝品的營銷模式,隨後他們認識到必須保留兩類有價值的客戶:高消費者和高影響者。希望通過接受免費化妝服務,讓使用者進行口碑宣傳,這是交易資料與互動資料的完美結合,為業務挑戰提供瞭解決方案。"Informatica的技術幫助這家零售商用社交平臺上的資料充實了客戶主資料,使他的業務服務更具有目標性。

2. 零售企業也監控客戶的店內走動情況以及與商品的互動。它們將這些資料與交易記錄相結合來展開分析,從而在銷售哪些商品、如何擺放貨品以及何時調整售價上給出意見,此類方法已經幫助某領先零售企業減少了17%的存貨,同時在保持市場份額的前提下,增加了高利潤率自有品牌商品的比例。

 

 

3

大資料解決方案

 

3.1. 大資料技術組成

 

大資料技術由四種技術構成,它們包括:

3.1.1. 分析技術

分析技術意味著對海量資料進行分析以實時得出答案,由於大資料的特殊性,大資料分析技術還處於發展階段,老技術會日趨完善,新技術會更多出現。大資料分析技術涵蓋了以下的的五個方面

3.1.1.1. 視覺化分析

資料視覺化無論對於普通使用者或是資料分析專家,都是最基本的功能。資料影象化可以讓資料自己說話,讓使用者直觀的感受到結果。

3.1.1.2. 資料探勘演算法

影象化是將機器語言翻譯給人看,而資料探勘就是機器的母語。分割、叢集、孤立點分析還有各種各樣五花八門的演算法讓我們精煉資料,挖掘價值。這些演算法一定要能夠應付大資料的量,同時還具有很高的處理速度。

3.1.1.3. 預測分析能力

資料探勘可以讓分析師對資料承載資訊更快更好地消化理解,進而提升判斷的準確性,而預測性分析可以讓分析師根據影象化分析和資料探勘的結果做出一些前瞻性判斷。

3.1.1.4. 語義引擎

非結構化資料的多元化給資料分析帶來新的挑戰,我們需要一套工具系統的去分析,提煉資料。語義引擎需要設計到有足夠的人工智慧以足以從資料中主動地提取資訊。

3.1.1.5. 資料質量和資料管理

資料質量與管理是管理的最佳實踐,透過標準化流程和機器對資料進行處理可以確保獲得一個預設質量的分析結果。

我們知道大資料分析技術最初起源於網際網路行業。網頁存檔、使用者點選、商品資訊、使用者關係等資料形成了持續增長的海量資料集。這些大資料中蘊藏著大量可以用於增強使用者體驗、提高服務質量和開發新型應用的知識,而如何高效和準確的發現這些知識就基本決定了各大網際網路公司在激烈競爭環境中的位置。首先,以Google為首的技術型網際網路公司提出了MapReduce的技術框架,利用廉價的PC伺服器叢集,大規模併發處理批量事務。

利用檔案系統存放非結構化資料,加上完善的備份和容災策略,這套經濟實惠的大資料解決方案與之前昂貴的企業小型機叢集+商業資料庫方案相比,不僅沒有丟失效能,而且還贏在了可擴充套件性上。之前,我們在設計一個數據中心解決方案的前期,就要考慮到方案實施後的可擴充套件性。通常的方法是預估今後一段時期內的業務量和資料量,加入多餘的計算單元(CPU)和儲存,以備不時只需。

這樣的方式直接導致了前期一次性投資的巨大,並且即使這樣也依然無法保證計算需求和儲存超出設計量時的系統性能。而一旦需要擴容,問題就會接踵而來。首先是商業並行資料庫通常需要各節點物理同構,也就是具有近似的計算和儲存能力。而隨著硬體的更新,我們通常加入的新硬體都會強於已有的硬體。這樣,舊硬體就成為了系統的瓶頸。為了保證系統性能,我們不得不把舊硬體逐步替換掉,經濟成本損失巨大。其次,即使是當前最強的商業並行資料庫,其所能管理的資料節點也只是在幾十或上百這個數量級,這主要是由於架構上的設計問題,所以其可擴充套件性必然有限。而MapReduce+GFS框架,不受上述問題的困擾。需要擴容了,只需增加個機櫃,加入適當的計算單元和儲存,集群系統會自動分配和排程這些資源,絲毫不影響現有系統的執行

很多初學者,對大資料的概念都是模糊不清的,大資料是什麼,能做什麼,學的時候,該按照什麼線路去學習,學完往哪方面發展,想深入瞭解,想學習的同學歡迎加入大資料學習扣群:805127855,有大量乾貨(零基礎以及進階的經典實戰)分享給大家,並且有清華大學畢業的資深大資料講師給大家免費授課,給大家分享目前國內最完整的大資料高階實戰實用學習流程體系
 

3.1.2. 儲存資料庫

儲存資料庫(In-Memory Databases)讓資訊快速流通,大資料分析經常會用到儲存資料庫來快速處理大量記錄的資料流通。比方說,它可以對某個全國性的連鎖店某天的銷售記錄進行分析,得出某些特徵進而根據某種規則及時為消費者提供獎勵回饋。

但傳統的關係型資料庫嚴格的設計定式、為保證強一致性而放棄效能、可擴充套件性差等問題在大資料分析中被逐漸暴露。隨之而來,NoSQL資料儲存模型開始風行。NoSQL,也有人理解為Not Only SQL,並不是一種特定的資料儲存模型,它是一類非關係型資料庫的統稱。其特點是:沒有固定的資料表模式、可以分散式和水平擴充套件。NoSQL並不是單純的反對關係型資料庫,而是針對其缺點的一種補充和擴充套件。典型的NoSQL資料儲存模型有文件儲存、鍵-值儲存、圖儲存、物件資料庫、列儲存等

NoSQL資料庫是一種建立在雲平臺的新型資料處理模式,NoSQL在很多情況下又叫做雲資料庫。由於其處理資料的模式完全是分佈於各種低成本伺服器和儲存磁碟,因此它可以幫助網頁和各種互動性應用快速處理過程中的海量資料。它為Zynga、AOL、Cisco以及其它一些企業提供網頁應用支援。正常的資料庫需要將資料進行歸類組織,類似於姓名和帳號這些資料需要進行結構化和標籤化。但是NoSQL資料庫則完全不關心這些,它能處理各種型別的文件。

在處理海量資料同時請求時,它也不會有任何問題。比方說,如果有1000萬人同時登入某個Zynga遊戲,它會將這些資料分佈於全世界的伺服器並通過它們來進行資料處理,結果與1萬人同時線上沒什麼兩樣。現今有多種不同型別的NoSQL模式。商業化的模式如Couchbase、10gen的mongoDB以及Oracle的NoSQL;開源免費的模式如CouchDB和Cassandra;還有亞馬遜最新推出的NoSQL雲服務。

3.1.3. 分散式計算技術

分散式計算結合了NoSQL與實時分析技術,如果想要同時處理實時分析與NoSQL資料功能,那麼你就需要分散式計算技術。分散式技術結合了一系列技術,可以對海量資料進行實時分析。更重要的是,它所使用的硬體非常便宜,因而讓這種技術的普及變成可能。SGI的Sunny Sundstrom解釋說,通過對那些看起來沒什麼關聯和組織的資料進行分析,我們可以獲得很多有價值的結果。比如說可以分發現一些新的模式或者新的行為。運用分散式計算技術,銀行可以從消費者的一些消費行為和模式中識別網上交易的欺詐行為。

分散式計算技術讓不可能變成可能,分散式計算技術正引領著將不可能變為可能。Skybox Imaging就是一個很好的例子。這家公司通過對衛星圖片的分析得出一些實時結果,比如說某個城市有多少可用停車空間,或者某個港口目前有多少船隻。它們將這些實時結果賣給需要的客戶。沒有這個技術,要想快速便宜的分析這麼大量衛星圖片資料將是不可能的。如圖五所示:

 

 

圖五

分散式計算技術是Google的核心,也是Yahoo的基礎,目前分散式計算技術是基於Google建立的技術,但是卻最新由Yahoo所建立。Google總共發表了兩篇論文,2004年發表的叫做MapReduce的論文介紹瞭如何在多計算機之間進行資料處理;另一篇於2003年發表,主要是關於如何在多伺服器上儲存資料。來自於Yahoo的工程師Doug Cutting在讀了這兩篇論文後建立了分散式計算平臺,以他兒子的玩具大象命名。如圖六所示

 

 

圖六

而Hadoop作為一個重量級的分散式處理開源框架已經在大資料處理領域有所作為

 

3.2. 大資料處理過程

 

3.2.1. 採集

大資料的採集是指利用多個數據庫來接收發自客戶端(Web、App或者感測器形式等)的資料,並且使用者可以通過這些資料庫來進行簡單的查詢和處理工作。比如,電商會使用傳統的關係型資料庫MySQL和Oracle等來儲存每一筆事務資料,除此之外,Redis和MongoDB這樣的NoSQL資料庫也常用於資料的採集。

在大資料的採集過程中,其主要特點和挑戰是併發數高,因為同時有可能會有成千上萬的使用者來進行訪問和操作,比如火車票售票網站和淘寶,它們併發的訪問量在峰值時達到上百萬,所以需要在採集端部署大量資料庫才能支撐。並且如何在這些資料庫之間進行負載均衡和分片的確是需要深入的思考和設計。

3.2.2. 匯入/預處理

雖然採集端本身會有很多資料庫,但是如果要對這些海量資料進行有效的分析,還是應該將這些來自前端的資料匯入到一個集中的大型分散式資料庫,或者分散式儲存叢集,並且可以在匯入基礎上做一些簡單的清洗和預處理工作。也有一些使用者會在匯入時使用來自Twitter的Storm來對資料進行流式計算,來滿足部分業務的實時計算需求。

匯入與預處理過程的特點和挑戰主要是匯入的資料量大,每秒鐘的匯入量經常會達到百兆,甚至千兆級別。

3.2.3. 統計/分析

統計與分析主要利用分散式資料庫,或者分散式計算叢集來對儲存於其內的海量資料進行普通的分析和分類彙總等,以滿足大多數常見的分析需求,在這方面,一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata,以及基於MySQL的列式儲存Infobright等,而一些批處理,或者基於半結構化資料的需求可以使用Hadoop。

統計與分析這部分的主要特點和挑戰是分析涉及的資料量大,其對系統資源,特別是I/O會有極大的佔用。

3.2.4. 挖掘

與前面統計和分析過程不同的是,資料探勘一般沒有什麼預先設定好的主題,主要是在現有資料上面進行基於各種演算法的計算,從而起到預測(Predict)的效果,從而實現一些高級別資料分析的需求。比較典型演算法有用於聚類的Kmeans、用於統計學習的SVM和用於分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過程的特點和挑戰主要是用於挖掘的演算法很複雜,並且計算涉及的資料量和計算量都很大,常用資料探勘演算法都以單執行緒為主。

整個大資料處理的普遍流程至少應該滿足這四個方面的步驟,才能算得上是一個比較完整的大資料處理

 

3.3. 大資料處理的核心技術-Hadoop

 

大資料技術涵蓋了硬軟體多個方面的技術,目前各種技術基本都獨立存在於儲存、開發、平臺架構、資料分析挖掘的各個相對獨立的領域。這一部分主要介紹和分析大資料處理的核心技術——Hadoop。

3.3.1. Hadoop的組成

大資料不同於傳統型別的資料,它可能由TB甚至PB級資訊組成,既包括結構化資料,也包括文字、多媒體等非結構化資料。這些資料型別缺乏一致性,使得標準儲存技術無法對大資料進行有效儲存,而且我們也難以使用傳統的伺服器和SAN方法來有效地儲存和處理龐大的資料量。這些都決定了“大資料”需要不同的處理方法,而Hadoop目前正是廣泛應用的大資料處理技術。Hadoop是一個基於Java的分散式密集資料處理和資料分析的軟體框架。該框架在很大程度上受Google在2004年白皮書中闡述的MapReduce的技術啟發。Hadoop主要元件包含如圖七:

 

 

圖七

Hadoop Common:通用模組,

• 支援其他Hadoop模組

• Ha d o o p Di s t r i b u t e d Fi l eSystem(HDFS):分散式檔案系統,用以提供高流量的應用資料訪問

• Hadoop YARN:支援工作排程和叢集資源管理的框架

• HadoopMapReduce:針對大資料的、靈活的並行資料處理框架

其他相關的模組還有:

• ZooKeeper:高可靠性分散式協調系統

• Oozie:負責MapReduce作業排程

• HBase:可擴充套件的分散式資料庫,可以將結構性資料儲存為大表

• Hive:構建在MapRudece之上的資料倉庫軟體包

• Pig:架構在Hadoop之上的高階資料處理層

在Hadoop框架中,最底層的HDFS儲存Hadoop叢集中所有儲存節點上的檔案。HDFS的架構是基於一組特定的節點構建的(如圖八),

 

 

圖八

這些節點包括一個NameNode和大量的DataNode。儲存在HDFS中的檔案被分成塊,然後將這些塊複製到多個計算機中(DataNode)。這與傳統的RAID架構大不相同。塊的大小(通常為64MB)和複製的塊數量在建立檔案時由客戶機決定。NameNode可以控制所有檔案操作。HDFS內部的所有通訊都基於標準的TCP/IP協議。NameNode在HDFS內部提供元資料服務,負責管理檔案系統名稱空間和控制外部客戶機的訪問。它決定是否將檔案對映到DataNode上的複製塊上。DataNode通常以機架的形式組織,機架通過一個交換機將所有系統連線起來。H a d o o p M a p R e d u c e 是Google MapReduce的開源實現。MapReduce技術是一種簡潔的平行計算模型,它在系統層面解決了擴充套件性、容錯性等問題,通過接受使用者編寫的Map函式和Reduce函式,自動地在可伸縮的大規模叢集上並行執行,從而可以處理和分析大規模的資料[6]。Hadoop提供了大量的介面和抽象類,從而為Hadoop應用程式開發人員提供許多工具,可用於除錯和效能度量等。在H a d o o p 應用例項中,一個代表客戶機在單個主系統上啟動Ma pRe d u c e的應用程式稱為JobTracker。類似於NameNode,它是Ha d o o p 叢集中唯一負責控制MapReduce應用程式的系統。在應用程式提交之後,將提供包含在HDFS中的輸入和輸出目錄。JobTr a cke r使用檔案塊資訊(物理量和位置)確定如何建立其他TaskTracker從屬任務。MapReduce應用程式被複制到每個出現輸入檔案塊的節點,將為特定節點上的每個檔案塊建立一個唯一的從屬任務。每個TaskTracker將狀態和完成資訊報告給JobTracker。如圖顯示一個示例叢集中的工作分佈,如圖九:

 

 

圖九

3.3.2. Hadoop的優點:

Hadoop能夠使使用者輕鬆開發和執行處理大資料的應用程式。它主要有以下幾個優點:

3.3.2.1. 高可靠性。

Hadoop按位儲存和處理資料的能力值得人們信賴。

3.3.2.2. 高擴充套件性。

Hadoop是在可用的計算機集簇間分配資料並完成計算任務的,這些集簇可以方便地擴充套件到數以千計的節點中。

3.3.2.3. 高效性。

Hadoop能夠在節點之間動態地移動資料,並保證各個節點的動態平衡,因此處理速度非常快。

3.3.2.4. 高容錯性。

Hadoop能夠自動儲存資料的多個副本,並且能夠自動將失敗的任務重新分配。Hadoop帶有用Java語言編寫的框架,因此執行在Linux生產平臺上是非常理想的。Hadoop上的應用程式也可以使用其他語言編寫,比如C++。

3.3.3. Hadoop的不足

Hadoop作為一個處理大資料的軟體框架,雖然受到眾多商業公司的青睞,但是其自身的技術特點也決定了它不能完全解決大資料問題。在當前Hadoop的設計中,所有的metadata操作都要通過集中式的NameNode來進行,NameNode有可能是效能的瓶頸。當前Hadoop單一NameNode、單一Jobtracker的設計嚴重製約了整個Hadoop可擴充套件性和可靠性。首先,NameNode和JobTracker是整個系統中明顯的單點故障源。再次,單一NameNode的記憶體容量有限,使得Hadoop叢集的節點數量被限制到2000個左右,能支援的檔案系統大小被限制在10-50PB,最多能支援的檔案數量大約為1.5億左右。實際上,有使用者抱怨其叢集的NameNode重啟需要數小時,這大大降低了系統的可用性。隨著Hadoop被廣泛使用,面對各式各樣的需求,人們期望Hadoop能提供更多特性,比如完全可讀寫的檔案系統、Snapshot、Mirror等等。這些都是當前版本的Hadoop不支援,但是使用者又有強烈需求的。

3.3.4. 主要商業性“大資料”處理方案

“大資料”被科技企業看作是雲端計算之後的另一個巨大商機,包括IBM、谷歌、亞馬遜和微軟在內的一大批知名企業紛紛掘金這一市場。此外,很多初創企業也開始加入到大資料的淘金隊伍中。Hadoop是非結構資料庫的代表,低成本、高擴充套件性和靈活性等優勢使其成為各種面向大資料處理分析的商業服務方案的首選。Oracle、IBM、Microsoft三大商業資料提供商是Hadoop的主要支持者。很多知名企業都以Hadoop技術為基礎提供自己的商業性大資料解決方案。這一部分主要介紹以Hadoop為基礎的典型商業性大資料解決方案。

3.3.2.5. IBM InfoSphere大資料分析平臺

I B M於2 0 1 1 年5 月推出的InfoSphere大資料分析平臺是一款定位為企業級的大資料分析產品。該產品包括BigInsight s和Streams,二者互補,Biglnsights基於Hadoop,對大規模的靜態資料進行分析,它提供多節點的分散式計算,可以隨時增加節點,提升資料處理能力。St reams採用記憶體計算方式分析實時資料。它們將包括HadoopMapReduce在內的開源技術緊密地與IBM系統整合起來。研究Hadoop這樣開源技術的人很多,但是IBM這次是真正將其變成了企業級的應用,針對不同的人員增加不同的價值。InfoSphereBigInsight s 1.3的儲存和運算框架採用了開源的Ha d o o pMa pRe d u c e,同時針對Ha d o o p 框架進行了改造,採用了IBM特有的通用並行檔案系統——GPFS。利用GPFS的目的是為了避免單點故障,保證可用性。BigInsights中還有兩個分析產品——Cognos和SPSS,這兩個分析產品在傳統功能上加強了文字分析的功能,提供了一系列文字分析工具,並使用高階語言進行自定義規則,如文字格式轉換等。目前BigInsights提供兩種版本,一種是企業版(Enterprise Edition),用於企業級的大資料分析解決方案。另一種是基礎版(Basic Edition),去掉了企業版中的大部分功能,使用者可以免費下載,主要提供給開發人員和合作夥伴試用。St r e ams 最大的特點就是記憶體分析,利用多節點PC伺服器的記憶體來處理大批量的資料分析請求。St reams的特點就是“小快靈”,資料是實時流動的,其分析反應速度可以控制在毫秒級別,而BigInsights的分析是批處理,反應速度無法同St reams相比。總體來說,二者的設計架構不同,也用於處理不同的大資料分析需求,並可以形成良好的互補。InfoSphere平臺僅僅是IBM大資料解決方案中的一部分。IBM大資料平臺包括4大部分:資訊整合與治理元件、基於開源Apache Hadoop的框架而實現的Bi g I n s i g h t s 平臺、加速器,以及包含視覺化與發現、應用程式開發、系統管理的上層應用。通過IBM的解決方案可以看出,解決大資料問題不能僅僅依靠Hadoop。

3.3.2.6. Or a c l e Bi g Da t aApplianc

Oracle Big Data Appliance準確地說是一款硬體產品,添加了Hadoop裝載器、應用介面卡以及Or acle新的NoSQL資料庫,主要目的是為了將非結構化資料載入到關係型資料庫中去,並對軟硬體的整合做了一些優化。Oracle BigData機包括開源Apache Hadoop、Oracle NoSQL資料庫、Oracle資料整合Hadoop應用介面卡、OracleHa d o o p 裝載器、Op e n So u r c eDistribution of R、Oracle Linux和Oracle Java HotSpot虛擬機器。它能夠快速、便捷地與Oracle資料庫11g、Oracle Exadata資料庫雲伺服器和Oracle Exalytics商務智慧雲伺服器整合。分析師和統計人員可以執行現有的R應用,並利用R客戶端直接處理儲存在Oracle資料庫11g中的資料,從而極大地提高可擴充套件性、效能和安全性。

3.3.2.7. Mi c r o s o f t S QLServer

微軟已經發布Hadoop Connectorfor SQL Se r ve r Pa r a l lel Dat aWarehouse和Hadoop Connectorfor SQL Ser ver社群技術預覽版本的聯結器。該聯結器是雙向的,使用者可以在Hadoop和微軟資料庫伺服器之間向前或者向後遷移資料。微軟的SQL Server 2012將併入Hadoop分散式計算平臺,微軟還將把Hadoop引入Windows Server和Azure(微軟的雲服務)。

3.3.2.8. Sybase IQ

Sybase IQ是Sybase公司推出的特別為資料倉庫設計的關係型資料庫,添加了Hadoop的整合,並提供了MapReduce的API。相比於傳統的“行式儲存”的關係型資料庫,Sybase IQ使用了獨特的列式儲存方式,在進行分析查詢時,僅需讀取查詢所需的列,其垂直分割槽策略不僅能夠支援大量的使用者、大規模資料,還可以提交對商業資訊的高速訪問,其速度可達到傳統的關係型資料庫的百倍甚至千倍。

3.3.5. 其他“大資料”解決方案

“大資料”解決方案並非只有Hadoop一種,許多知名企業還提供了其他的解決方案。

3.3.2.9. EMC

EMC 提供了兩種大資料儲存方案,即Isilon和Atmos。Isilon能夠提供無限的橫向擴充套件能力,Atmos是一款雲端儲存基礎架構,在內容服務方面,Atmos是很好的解決方案。在資料分析方面,EMC提供的解決方案、提供的產品是Greenplum,Greenplum有兩個產品,第一是GreenplumDatabase,GreenplumDatabase是大規模的並行成立的資料庫,它可以管理、儲存、分析PB量級的一些結構性資料,它下載的速度非常高,最高可以達到每小時10 T B,速度非常驚人。這是EMC可以提供給企業、政府,用來分析海量的資料。但是Gr e e n p l umDa t a b a s e面對的是結構化資料。很多資料超過9 0 % 是非結構化資料,E M C 有另外一個產品是GreenplumHD,GreenplumHD可以把非結構化的資料或者是半結構化的資料轉換成結構化資料,然後讓GreenplumDatabase去處理。

3.3.2.10. BigQuery

BigQu e r y是Go og l e 推出的一項We b服務,用來在雲端處理大資料。該服務讓開發者可以使用Go o g l e 的架構來執行SQL語句對超級大的資料庫進行操作。BigQuery允許使用者上傳他們的超大量資料並通過其直接進行互動式分析,從而不必投資建立自己的資料中心。Google曾表示BigQuery引擎可以快速掃描高達70TB未經壓縮處理的資料,並且可馬上得到分析結果。大資料在雲端模型具備很多優勢,BigQuery服務無需組織提供或建立資料倉庫。而BigQuery在安全性和資料備份服務方面也相當完善。免費帳號可以讓使用者每月訪問高達100GB的資料,使用者也可以付費使用額外查詢和儲存空間。

3.3.6. 大資料”與科技文獻資訊處理

“大資料”目前主要指醫學、天文、地理、Web日誌、多媒體資訊等資料,鮮有提及文獻資訊。事實上,現在的科技文獻資訊日益凸顯出“大資料”的特徵,主要表現在以下幾個方面:更新週期縮短;數量龐大;文獻的型別多樣;文獻載體數字化;文獻語種多樣化;文獻內容交叉;文獻資訊密度大。科技文獻中所含的資訊型別多樣,既有結構性資料,也有非結構性文字和公式,如何利用“大資料”技術對文獻內容進行分析,挖掘使用者訪問日誌、評價反饋等資料的價值,為使用者提供服務成為科技資訊服務業急需思考和解決的問題。在科技文獻資訊處理中,文字分析技術、語義計算技術、資料安全需要與“大資料”解決方案結合起來考慮實施,這樣才能更有效地提供知識服務。

 

3.4. 大資料處理技術發展前景

 

隨著大資料時代的來臨,應用越來越廣,其發展前景是很光明的。

3.4.1. 大資料複雜度降低

大資料技術的落地將會有兩個特點:一個是對MapReduce依賴越來越少,另外一個是會把Hadoop技術深入的應用到企業的軟體架構中。對於第一個特點,像Cloudera的Impala和微軟的PolyBase這樣的軟體會得到充分發展,他們繞開了MapReduce,直接對存在HDFS中的資料進行處理。對於第二個特點,大規模的使用Hadoop是個必然趨勢,漸漸的就會形成行業的標準,進而成為更有價值的軟體基礎,而不僅是自己內部使用。

3.4.2. 大資料細分市場

大資料相關技術的發展,將會創造出一些新的細分市場。例如,以資料分析和處理為主的高階資料服務,將出現以資料分析作為服務產品提交的分析即服務(Analyze as a Service)業務;將多種資訊整合管理,創造對大資料統一的訪問和分析的元件產品;基於社交網路的社交大資料分析;甚至會出現大資料技能的培訓市場,教授資料分析課程等。

3.4.3. 大資料開源

開源軟體為大資料市場帶來更多機會。與人們的傳統理解不同,大資料市場開源軟體的盛行不會抑制市場的商業機會,相反開源軟體將會給基礎架構硬體、應用程式開發工具、應用、服務等各個方面的相關領域帶來更多的機會。

3.4.4. Hadoop將加速發展

做為大資料領域的代表技術,許多企業都把明年的計劃聚焦在Hadoop之上。據預測,使用者對Hadoop的優化將更注重硬體,同時,對企業友好的Hadoop技術市場將達到前所未有的高峰。從整體上說,不僅是Hadoop本身本會得到迅猛的發展,同時Hadoop在多個數據中心中的配置和無縫整合技術也將成為熱門。Hadoop的專業知識正在飛速增長,但是這方面優秀的人才仍然很缺乏。基於SQL的Hadoop工具將會得到持續發展”。

3.4.5. 打包的大資料行業分析應用

隨著大資料逐漸走向各個行業,基於行業的大資料分析應用需求也日益增長。未來幾年中針對特定行業和業務流程的分析應用將會以預打包的形式出現,這將為大資料技術供應商開啟新的市場。這些分析應用內容還會覆蓋很多行業的專業知識,也會吸引大量行業軟體開發公司的投入。

3.4.6. 大資料分析的革命性方法出現

在大資料分析上,將出現革命性的新方法。就像計算機和網際網路一樣,大資料可能是新一波技術革命。從前的很多演算法和基礎理論可能會產生理論級別的突破。

3.4.7. 大資料與雲端計算:深度融合

大資料處理離不開雲端計算技術,雲端計算為大資料提供彈性可擴充套件的基礎設施支撐環境以及資料服務的高效模式,大資料則為雲端計算提供了新的商業價值,大資料技術與雲端計算技術必有更完美的結合。同樣的,雲端計算、物聯網、移動網際網路等新興計算形態,既是產生大資料的地方,也是需要大資料分析方法的領域。

3.4.8. 大資料一體機陸續釋出

自雲端計算和大資料概念被提出後,針對該市場推出的軟硬體一體化裝置就層出不窮。在未來幾年裡,資料倉庫一體機、NoSQL 一體機以及其它一些將多種技術結合的一體化裝置將進一步快速發展。[page]

 

 

4

基於基站大資料應用及案例

 

4.1. 氣象災害應急簡訊釋出平臺

 

4.1.1. 概述

4.1.1.1. 專案背景

為有效預防、及時響應和處置氣象災害,保證氣象災害應急工作高效、有序進行,最大限度地減輕或者避免氣象災害造成的人員傷亡、財產損失以及對經濟社會發展和生態環境保護產生的不利影響,將災害資訊及時通知相關人員,建設氣象災害應急簡訊釋出平臺。

4.1.1.2. 平臺概述

本平臺是利用手機進出特定小區需與交換機交換位置資訊的特性,結合目前行動通訊網路及短訊息釋出平臺,實現在特定區域、特定時間對特定客戶群,傳送特定服務簡訊的個性化資訊服務。

4.1.2. 平臺建設特點與原則

4.1.2.1. 建設特點

平臺具有以下特點:

• 針對性強:特定區域、特定時間、特定客群、特定服務簡訊,投放準確,不會影響特定區域外的使用者;

• 收看率高:手機自動接收,收看率高,見效快,比傳統媒體資訊更深入使用者;

• 釋出便捷:客戶通過網路可以直接申請釋出資訊,從申請到釋出僅需幾小時,可以及時修改;

• 成本低廉:定向傳送有的放矢,平均成本更低廉。

4.1.2.2. 建設原則

• 標準化:

具有互操作性,可用性,可靠性,可擴充性,可管理性,建立一個開放式,遵循國際標準的網路系統。

• 先進性:

既要保證網路的先進性,同時也要兼顧技術的成熟性。

• 安全性:

對於安全性我們將通過對使用者的區域劃分,建議選用專用防火牆實現對本地資源的安全保護。

• 擴充套件性:

網路設計必須為今後的擴充留有足夠的餘地,以保護使用者的投資,保證今後的網路擴充升級能力。

l 保護投資:

每個裝置都進行嚴格的選型,在滿足設計原則的功能前提下,提供最經濟的裝置配置方案。

• 可管理:

先進的網路管理可為多業務網路提供安全執行的基礎。

4.1.2.3. 大資料管理平臺特點

• 獨特的雲任務管理技術——使系統的並行效率提升顯著、硬體資源被充分用於大資料處理,縮短處理時間、節約硬體成本。

• 獨特的多層分散式快取技術——使系統的吞吐量更大,運算效能更高,資料更加安全可靠。

• 雙引擎技術——雲端計算引擎與傳統計算引擎協同工作,使得業務支援型別更豐富、三方對接更方便、並實現了應用前端到後端的大資料處理以及秒級的響應速度。

• 獨特的雲目錄管理技術——使得資料儲存更完整,資料回收更靈活更即時,資料的近線儲存更方便。

• 實用的監控體系——全面監控所有云節點、圖形化的指標監控、完備的存活與效能告警、對於分析叢集工作狀態、效能瓶頸識別、故障分析提供實際資料支援。

• 方便快捷的安裝——提供圖形與命令列2種安裝模式,適合本地與遠端部署。部署操作基本自動化,適合於大規模叢集的快速部署安裝。

4.1.3. 平臺整體架構

4.1.3.1. 建設原理

本平臺是通過分析移動通訊過程中的各種信令過程,獲得使用者當前的位置資訊。當用戶的位置資訊與業務選擇傳送的特定區域一致時,為使用者釋出業務定製的簡訊。為獲得準確、全面的使用者資訊(當前位置資訊和使用者手機號),需要監控業務特定區域所屬的MSC/VLR到周邊的所有信令鏈路(即下面的拓撲圖中雙向箭頭所對應的物理鏈路)。本專案使用的信令資料由信令監測系統定時提供。

行動通訊網路部分拓撲圖如下所示:

 

 

4.1.3.2. 平臺總體設計

1. 平臺總體結構

 

 

總體架構圖

系統主要由信令處理子系統、簡訊傳送子系統、管理子系統、大資料管理平臺四部分組成。

• 信令處理子系統

本子系統經過複雜的信令分析和匹配,最終得到使用者的手機號和當前位置資訊,並將這些資訊儲存在記憶體資料庫中,並同步到關係資料庫中。

• 簡訊傳送子系統

本子系統經過對使用者手機號和位置資訊的分析,以及與業務條件是否匹配,得到是否要給使用者下發簡訊。如果要下發簡訊,簡訊業務應用系統將要下發的簡訊和使用者手機號寫入運營商的10086簡訊下發系統,由10086簡訊下發系統為使用者下發資訊。

• 大資料管理系統

儲存與使用者、位置相關的資料,供簡訊業務應用系統判斷時使用。使系統的並行效率提升顯著、硬體資源被充分用於大資料處理,縮短處理時間、節約硬體成本。

• 系統管理子系統

本服務提供人性化的遠端登陸介面服務,為客戶提供了使用者管理、許可權管理、日誌管理、統計分析、資料配置等豐富功能。

氣象災害應急簡訊釋出平臺採用信令資料接入、資料處理整合、頁面展示三層架構的方式實現。

信令資料接入主要獲取信令資料,並對資料進行預處理。由信令監測平臺對外提供信令資料,氣象災害應急簡訊釋出平臺中的信令處理子系統通過網管DCN網路與信令監測系統對接,從而實現氣象災害應急簡訊釋出平臺週期性地從信令監測系統批量採集信令資料的功能,並對原始性資料進行預處理。

資料處理採用專用資料統計演算法和資料發掘分析技術,根據實時採集到的信令介面資料,及定期更新的基站、小區、場所及號碼段資料,綜合分析各個視角的資料。

頁面展現層具備將各種統計分析結果進行圖表化、圖形化的展示,並可以多種格式匯出。

4.1.3.3. 平臺技術思路

平臺本著可靠穩定的宗旨進行整個系統的技術構建,主要遵循以下技術思路:

• 擴充套件性原則:平臺具有高可擴充套件性,既能適應行動通訊網路結構、通訊協議的擴充套件變更,也能適應不斷變化的應用需求;

• 模組化設計:平臺採用模組化設計,並構建業務生成平臺;

• 可移植性原則:平臺採用Java 開發體系,與系統平臺無關,確保應用系統的可移植性。

• 先進性原則:平臺採用電信級設計標準,在設計思想、系統架構、採用技術、選用平臺上均需要具有一定的先進性、前瞻性,考慮一定時期內業務的增長。

• 易用性原則:提供友好的使用者操作介面,具備直觀易用的人機介面,簡化複雜操作步驟。

• 穩定性原則:具備高可靠性和高穩定性,能夠適應海量信令資料處理。在系統設計、開發和應用時,從系統結構、技術措施、軟硬體平臺、技術服務和維護響應能力等方面綜合考慮,確保系統較高的效能和較少的故障率。

 

4.2. 旅遊客源分析

 

4.2.1. 整體方案

4.2.1.1. 方案思路

移動運營商側擁有豐富的網路信令資料,使用者在每一個業務應用和操作時,包括語音通話、收發簡訊等業務時,都會在網路側記錄使用者相關的基站位置資訊,除此之外還有使用者的主動位置更新(更新LAI)和定期的位置更新(一般為2小時以內),也會記錄使用者的位置資訊,通過這些信令資料上下文,我們可以通過基站描點勾勒出使用者的活動軌跡。在利用運營商在旅遊景區的基站資訊同景區進行有效的結合,可以實時分析各景區的移動本網當前使用者人數及本網當前旅遊到達總數。

• 通過對使用者進一步分析其來源的等相關情況;

• 通過對使用者進一步分析駐留時長情況;

• 通過分析各個旅遊景區的人流密度等相關情況;

有了這部分本網旅遊使用者的資料就可以進一步分析有個旅遊使用者相關如來源地等,以及景區相關的如景區熱度排名等相關資料,同時可以通過全省進一步歸納熱點旅遊線路等,下面章節會詳細的介紹。

統計出移動本網使用者資料後,可以根據移動使用者佔比情況即比例係數反推旅遊景區的使用者總數,佔比情況如下圖,中移動佔比在72%。

 

 

4.2.1.2. 系統架構

 

很多初學者,對大資料的概念都是模糊不清的,大資料是什麼,能做什麼,學的時候,該按照什麼線路去學習,學完往哪方面發展,想深入瞭解,想學習的同學歡迎加入大資料學習扣群:805127855,有大量乾貨(零基礎以及進階的經典實戰)分享給大家,並且有清華大學畢業的資深大資料講師給大家免費授課,給大家分享目前國內最完整的大資料高階實戰實用學習流程體系
 

旅遊客源分析應用平臺採用信令資料採集接入、資料分析整合、頁面展示三層架構的方式實現。

信令資料採集接入層主要獲取信令資料,並對資料進行預處理。本層與中興信令監測平臺介面。

資料處理層採用專用資料統計演算法和資料發掘分析技術,根據實時採集到的信令介面資料,及定期更新的基站、小區、場所及號碼段資料,綜合分析各個視角的資料,包括統計區域實時流量資料、流量總量資料、流量密度資料、流量駐留資料、景點流量告警等。

頁面展現層具備將各種統計分析結果進行圖表化、圖形化、地圖化的展示,並可以多種格式匯出。同時通過介面建立同接觸渠道的介面,包括短彩信、12580介面,可以通過介面推送給商家及使用者相關的實時資訊。