1. 程式人生 > >大資料下的使用者行為分析

大資料下的使用者行為分析

  1. Consumer behaviour is the study of when,why,how and where people do or don’t buy a product。
    使用者行為一般指使用者通過中間資源,購買、使用和評價某種產品的記錄。同時輔以使用者、資源、產品自身及環境的資訊。
    使用者行為記錄一般可以表示一組屬性的集合:{屬性1,屬性2,…,屬性N}
  2. 使用者行為分析主要是研究物件使用者的行為。資料來源包括使用者的日誌資訊、使用者主體資訊和外界環境資訊。通過特定的工具對使用者在網際網路/移動網際網路上的行為進行記錄,記錄的資訊通常稱為使用者日誌。
    資料內容:
    (1)網站日誌:使用者在訪問某個目標網站時,網站記錄的使用者相關行為資訊;
    (2)搜尋引擎日誌:搜尋引擎日誌系統所記錄的使用者在搜尋引擎上的相關行為資訊;
    (3)使用者瀏覽日誌:通過特定的工具和途徑記錄使用者所記錄的使用者在該搜尋引擎上的相關行為資訊;
    (4)使用者主體資料:如使用者群的年齡、受教育程度、興趣愛好等;
    (5)外界環境資料:如移動網際網路流量、手機上網使用者增長、自費套餐等;
    資料特點:
    (1)大資料量/海量資料,big data;
    (2)實時分析/準實時分析、離線分析;
    (3)由於使用者日誌包含大量使用者個人資訊,為避免涉及過多的使用者隱私,日誌工具通常對使用者個人資訊進行加密,不涉及具體使用者行為的細節內容,保護使用者隱私;
    (4)日誌資訊通常含有較多的噪音,因此,基於個人行為資訊分析得到的結論常常存在著很大的不可靠性。
  3. 使用者行為分析平臺主要面臨海量資料處理困難、分析模型演算法複雜、建設和運營成本高昂等方面的技術難點和挑戰。
    海量資料處理困難:
    (1)問題:面臨TB甚至PB級的海量資料,傳統關係資料庫儲存尚可,但對OLAP分析效仿低下;
    (2)難點:如何可實現可擴充套件的資料儲存、靈活快捷的資料訪問?
    (3)思路:利用Nosql資料庫解決大資料儲存,通過水平擴充套件讀寫負載提高訪問效能;
    分析模型演算法複雜:
    (1)問題:分析需要運用預警預測、聚類、協同過濾等資料探勘演算法,演算法的程式設計複雜度和計算複雜度都非常大;
    (2)難點:如何實現分析模型,並提供實時高速的複雜分析;
    (3)思路:改造開源的資料探勘模型庫,並運用Hadoop等平行計算框架;
    建設和運維成本高昂:
    (1)問題:傳統資料庫和分析軟體進行海量資料分析將導致天價的軟體授權許可費用;外部資料分析服務同樣價格昂貴,並且面臨安全性和靈活性侷限;
    (2)難點:如何低成本高效率的建設和運維繫統?
    (3)思路:基於可靠的開源解決方案構建獨立自主經濟靈活的分析平臺。
  4. Hadoop是基於Google有關大資料的論文實現的開源專案,最初的框架由Doug Cutting在2005年提出,目前是由Apache維護的開源專案。從最初到現在,Hadoop系統在7年中開發完成了一系列重要的子專案,已經形成了一個涵蓋資料儲存、管理和分析功能的較為完整的大資料生態系統,成為大資料儲存與處理領域地位最重要、應用最廣泛的開源框架。
    核心元件:
    (1)MapReduce:
    · Hadoop的分析式並行處理框架;
    · 實現對HDFS上海量資料的批量分析;
    (2)HDFS:
    · Hadoop的一個分散式檔案系統;
    · 高容錯性,部署在低廉商業硬體;
    · 提供高吞吐量,適合批量處理;
    Hadoop是執行在大量通常計算單位上提供海量資料儲存與平行計算的平臺框架:
    · 基於x86叢集水平可擴充套件;
    · 基於MapReduce的平行計算能力;
    · 設計規模:PB級的資料量,數千臺計算節點;
  5. Hadoop的優勢:
    (1)高可靠性:
    · 按位儲存和處理資料的能力值得信賴;
    (2)高擴充套件性:
    · 可以管理數以千計的儲存和計算節點;
    (3)高效能:
    · 實現數千計算節點的平行計算;
    (4)高容錯性:
    · 自動備份和自動失敗任務重起;
    Hadoop的不足:
    (1)效能可優化:
    · 與硬體的理論效能存在差距,具有優化空間;
    (2)可擴充套件性和可靠性:
    · 受單一Namenode,單一Jobtracker的設計嚴重製約,存在明顯的單點故障源;
    · 單一的Namenode的內容容量和效能有限,使得Hadoop叢集的節點數量被限制到2000個左右,能支援的檔案系統被限制在10-50PB,最多支援的檔案數量大約為1.5億;
    (3)欠缺各種企業特性:
    · 企業的個性化需求、定製化開發和可靠的運營維護服務;
    企業版Hadoop改進主要方向:
    (1)消除單點故障制約;
    (2)改進MapReduce;
    (3)完善資料管理和資料來源整合;
    (4)映象、快照等容災能力;
    (5)可靠的服務支援;
  6. 資料探勘演算法的程式設計複雜度和計算複雜度都非常大,往往稱為制約分析專案按期完成的瓶頸,精細化運營分析平臺利用支援Hadoop平行計算框架的開源資料探勘模型資料庫Mahout,實現了資料探勘演算法的快速實施和高效表現。基於這些經驗,未來我們將研究整合其他的開源演算法庫(如Weka和R等),以及商業演算法庫,以保證分析的精確性和效能。
    利用Mahout的聚類和協同過濾演算法庫的實現價值評估分析和智慧推薦引擎。
  7. 使用者行為分析平臺建立了大量的分析主題,分析結果的呈現能力對平臺的應用效能影響重大。利用研製管理決策支援系統的經驗,我們可以提供靈活可制定的報表編制和資料展現方式,並建立了主動推送和移動跨平臺訪問結合的資料訪問能力,提高分析材料的生成和呈現速度。

相關推薦

5個常用的資料視覺化分析工具,你知道嗎?

大資料及移動網際網路時代,每一個使用移動終端的人無時無刻不在生產資料,而作為網際網路服務提供的產品來說,也在持續不斷的積累資料。資料如同人工智慧一樣,往往能表現出更為客觀、理性的一面,資料可以讓人更加直觀、清晰的認識世界,資料也可以指導人更加理智的做出決策。 而在大資料時代的今天,最有價值的商品

資料就業前景分析的太到位了,想學習資料的可以看看

大資料廣泛應用於電網執行、經營管理及優質服務等各大領域,並正在改變著各行各業,也引領了大資料人才的變革。大資料專業就業前景怎麼樣?這對於在就業迷途中的我們是一個很重要的資訊。   隨著國家重視大資料,政府扶持大資料,大資料在企業中生根發芽,開花結果。未來三至五年,中國需要18

資料的主要分析模式和分析技術

大資料的主要分析模式和分析技術 大資料時代所分析的資料的最主要特徵是“多源異構”,其分析過程是逐層抽象、降維、概括和解讀的過程。從資料採集的源頭進行劃分,可將大資料時代分析處理的資料物件劃分為以下幾個類別: (1)各網頁中使用者的瀏覽次數、點選率,各種社交網站、動態網站網頁內容

55 個實用的資料視覺化分析工具

俗話說的好:工欲善其事,必先利其器!一款好的工具可以讓你事半功倍,尤其是在大資料時代,更需要強有力的工具通過使資料有意義的方式實現資料視覺化,還有資料的可互動性;我們還需要跨學科的團隊,而不是單個數據科學家、設計師或資料分析員;我們更需要重新思考我們所知道的資料視覺化,圖表和圖形還只能在一個或兩個維

資料行業前景分析

移動網際網路出現後,移動裝置的很多感測器收集了大量的使用者點選行為資料,已知IPHONE有3個感測器,三星有6個感測器。它們每天產生了大量的點選資料,這些資料被某些公司所有擁有,形成使用者大量行為資料。 電子地圖如高德、百度、Google地圖出現後,其產生了大量的資料流資料,這些資料不同於傳統資

企業級BI資料視覺化分析軟體開發

在大資料時代,一切資料都可以通過軟體智慧分析出對企業有效的分析報告。BI就是商業智慧的意思,他是一整套完整的解決方案,用於企業,將企業中已有資料做有效整合,快速準確的提供分析報表提供決策依據,幫助企業做出明智的戰略規劃。 系統主要由三層構成: 1.資料抽取層即傳統的ETL2.資料分析層,即傳統的資料倉庫3

商業智慧BI資料視覺化分析系統開發

商業智慧BI大資料視覺化分析系統是目前各個行業都會用到的系統。大資料時代,一個BI大資料分析系統能夠幫助企業有效快速的做出判斷,可以協助企業分析市場趨勢。 資料視覺化是指以柱狀圖、餅狀圖、線型圖等圖形方式展示資料,讓決策者更高效的瞭解企業的重要資訊和細節層次。 大量研究結果表明人類通過圖形獲取資訊的速度比

資料探勘分析工具集

大資料時代需要大資料探勘,我習慣把大資料分成四個領域:資料科學、網路科學、空間地理科學和視覺化技術。 最近的主要興趣在空間地理領域,學習如何獲取POI,Polygon,經緯度,空間匹配演算法和視覺化,一個全新領域有帶來諸多大資料分析工具的思考和整合。 恰巧看到一篇國外部落格列舉了大資料領域的

使用Logstash + Elasticsearch作為資料索引、分析工具

logstash(1.4.0)是一個不錯的日誌監控與分析工具,資料通過logstash使用後端的ElasticSearch(1.1.1)叢集完成資料索引,以供後續的查詢、分析使用。 logstash提供了一個geoip的filter,如果傳送的事件資料中有IP地址之類的資

資料關鍵技術分析,Hadoop主要有哪幾個優點?

古代,人們用牛來拉重物,當一頭牛拉不動一根圓木時,他們不曾想過培育更大更壯的牛。同樣,在面對計算能力不足時,我們也應嘗試著結合使用更多的計算機系統。 Hadoop就是基於這樣的理念設計。Hadoop是一個由Apache基金會所開發的分散式系統基礎架構,計算分析處理所涉及的框架,允許多臺裝置一起工

資料處理題型分析

大資料處理,顧名思義,資料量非常大,有些可以一次處理,有些需要分割後對其進行處理。解決這類題型的第一點就是要算出其所需空間的大小; 1.給定100億個整數,設計演算法找到只出現一次的整數; 解題思路:有100億個整數,一個整數4位元組,共所佔空間:100億*4位元組 = 1

BI資料視覺化分析商業智慧軟體系統開發

BI即商業智慧。商業智慧的概念早在1996年就提出了。當時的商業智慧的定義是:由資料倉庫(或資料集市)、查詢報表、資料分析、資料探勘、資料備份和恢復等部分組成的、以幫助企業決策為目的技術及其應用。而現在商業智慧通常是將企業中現有的資料轉分析轉化出為企業做出明智決策的工具。 1.BI大資料視覺化功

2018年海外資料產業全景分析與趨勢預測 | Mob Insight

引導語:能力越大,責任越大。 分析師:MobData研究院 1.全景概況 Without big data analytics, companies are blind and deaf, wandering out onto the Web like de

個數是如何用資料行為預測的?

“個數”是“個推”旗下面向 APP 開發者提供資料統計分析的產品。“個數”通過視覺化埋點技術及大資料分析能力從使用者屬性、渠道質量、行業對比等維度對 APP 進行全面的統計分析。 “個數”不僅可以及時統計使用者的活躍、新增等,還可以分析解除安裝使用者的成分、流向,此外還能實現流失、付費等使用者關鍵行為的預測

1.資料工具簡單分析天貓年底月銷量

1.引言 在線上交易早已成熟的今天,電商交易量究竟有多少?為了清晰地比較天貓月銷量,本文爬取了天貓2017年底、2018年初主流分類商品大量資料,並做了簡單的資料統計。整體流程如下: 說明:利用scrapy爬取天貓店鋪資料約50萬條,匯入HDFS分散式儲

【工業資料】工業資料應用場景分析;工業資料,從何做起

工業大資料也是一個全新的概念,從字面上理解,工業大資料是指在工業領域資訊化應用中所產生的大資料。

鏈家資料多維分析引擎實踐

前言大資料背景下,傳統關係型多維分析 ROLAP 引擎遇到極大挑戰,因而鏈家轉向基於 Hadoo

資料學習——日誌分析

有兩個海量日誌檔案儲存在hdfs上, 其中登陸日誌格式:user,ip,time,oper(列舉值:1為上線,2為下線); 訪問之日格式為:ip,time,url,假設登陸日誌中上下線資訊完整,切同一上下線時間段內是用的ip唯一, 計算訪問日誌中獨立user數量最多的前10個url,用MapReduc

智慧城市資料分析系統開發資料視覺化分析系統建設開發

智慧城市是運營多種資訊科技所建設起來為城市各方面提供更加便利的管理方式。對城市執行的系統每天會產生海量資料,而智慧城市資料分析系統則會對這些資料進行採集、整理、分析。對社會管理、政府管理及社會公共服務的各種需求做出智慧化響應和智慧化決策支援,從而實現城市的智慧式管理和執行。 智慧城市資料分析系統可用在交通、

智慧機場資料視覺化分析系統建設解決方案

智慧機場建設是智慧社會和交通強國建設的交會點,機場建設少不了各種資料分析,智慧機場大資料視覺化分析系統尤為重要。建設機場資料分析系統,將實現對資料的最優管理,服務更優,運營更佳。 機場的資料資訊資源包括航班保障資料、旅客資料、面部識別資訊、APP、GIS、流量入口、RFID行李追蹤資料等。智慧機場大資料視覺