大資料案例分析
摘自https://www.cnblogs.com/ShaYeBlog/p/5872113.html
一、大資料分析在商業上的應用
1、體育賽事預測
世界盃期間,谷歌、百度、微軟和高盛等公司都推出了比賽結果預測平臺。百度預測結果最為亮眼,預測全程64場比賽,準確率為67%,進入淘汰賽後準確率為94%。現在網際網路公司取代章魚保羅試水賽事預測也意味著未來的體育賽事會被大資料預測所掌控。
“在百度對世界盃的預測中,我們一共考慮了團隊實力、主場優勢、最近表現、世界盃整體表現和博彩公司的賠率等五個因素,這些資料的來源基本都是網際網路,隨後我們再利用一個由搜尋專家設計的機器學習模型來對這些資料進行彙總和分析,進而做出預測結果。”---
2、股票市場預測
去年英國華威商學院和美國波士頓大學物理系的研究發現,使用者通過谷歌搜尋的金融關鍵詞或許可以金融市場的走向,相應的投資戰略收益高達326%。此前則有專家嘗試通過Twitter博文情緒來預測股市波動。
理論上來講股市預測更加適合美國。中國股票市場無法做到雙向盈利,只有股票漲才能盈利,這會吸引一些遊資利用資訊不對稱等情況人為改變股票市場規律,因此中國股市沒有相對穩定的規律則很難被預測,且一些對結果產生決定性影響的變數資料根本無法被監控。
目前,美國已經有許多對衝基金採用大資料技術進行投資,並且收穫甚豐。中國的中證廣發百度百發100指數基金(下稱百發100),上線四個多月以來已上漲68%。
和傳統量化投資類似,大資料投資也是依靠模型,但模型裡的資料變數幾何倍地增加了,在原有的金融結構化資料基礎上,增加了社交言論、地理資訊、衛星監測等非結構化資料,並且將這些非結構化資料進行量化,從而讓模型可以吸收。
由於大資料模型對成本要求極高,業內人士認為,大資料將成為共享平臺化的服務,資料和技術相當於食材和鍋,基金經理和分析師可以通過平臺製作自己的策略。
http://v.youku.com/v_show/id_XMzU0ODIxNjg0.html
3、市場物價預測
CPI表徵已經發生的物價浮動情況,但統計局資料並不權威。但大資料則可能幫助人們瞭解未來物價走向,提前預知通貨膨脹或經濟危機。最典型的案例莫過於馬雲通過阿里B2B大資料提前知曉亞洲金融危機,當然這是阿里資料團隊的功勞。
4、使用者行為預測
基於使用者搜尋行為、瀏覽行為、評論歷史和個人資料等資料,網際網路業務可以洞察消費者的整體需求,進而進行鍼對性的產品生產、改進和營銷。《紙牌屋》 選擇演員和劇情、百度基於使用者喜好進行精準廣告營銷、阿里根據天貓使用者特徵包下生產線定製產品、亞馬遜預測使用者點選行為提前發貨均是受益於網際網路使用者行為 預測。
購買前的行為資訊,可以深度地反映出潛在客戶的購買心理和購買意向:例如,客戶 A 連續瀏覽了 5 款電視機,其中 4 款來自國內品牌 S,1 款來自國外品牌 T;4 款為 LED 技術,1 款為 LCD 技術;5 款的價格分別為 4599 元、5199 元、5499 元、5999 元、7999 元;這些行為某種程度上反映了客戶 A 對品牌認可度及傾向性,如偏向國產品牌、中等價位的 LED 電視。而客戶 B 連續瀏覽了 6 款電視機,其中 2 款是國外品牌 T,2 款是另一國外品牌 V,2 款是國產品牌 S;4 款為 LED 技術,2 款為 LCD 技術;6 款的價格分別為 5999 元、7999 元、8300 元、9200 元、9999 元、11050 元;類似地,這些行為某種程度上反映了客戶 B 對品牌認可度及傾向性,如偏向進口品牌、高價位的 LED 電視等。
5、人體健康預測
中醫可以通過望聞問切手段發現一些人體內隱藏的慢性病,甚至看體質便可知曉一個人將來可能會出現什麼症狀。人體體徵變化有一定規律,而慢性病發生前人體已經會有一些持續性異常。理論上來說,如果大資料掌握了這樣的異常情況,便可以進行慢性病預測。
6、疾病疫情預測
基於人們的搜尋情況、購物行為預測大面積疫情爆發的可能性,最經典的“流感預測”便屬於此類。如果來自某個區域的“流感”、“板藍根”搜尋需求越來越多,自然可以推測該處有流感趨勢。
Google成功預測冬季流感:
2009年,Google通過分析5000萬條美國人最頻繁檢索的詞彙,將之和美國疾病中心在2003年到2008年間季節性流感傳播時期的資料進行比較,並建立一個特定的數學模型。最終google成功預測了2009冬季流感的傳播甚至可以具體到特定的地區和州。
7、災害災難預測
氣象預測是最典型的災難災害預測。地震、洪澇、高溫、暴雨這些自然災害如果可以利用大資料能力進行更加提前的預測和告知便有助於減災防災救災賑災。 與過往不同的是,過去的資料收集方式存在著死角、成本高等問題,物聯網時代可以藉助廉價的感測器攝像頭和無線通訊網路,進行實時的資料監控收集,再利用大 資料預測分析,做到更精準的自然災害預測。
8、環境變遷預測
除了進行短時間微觀的天氣、災害預測之外,還可以進行更加長期和巨集觀的環境和生態變遷預測。森林和農田面積縮小、野生動物植物瀕危、海岸線上升,溫 室效應這些問題是地球面臨的“慢性問題“。如果人類知道越多地球生態系統以及天氣形態變化資料,就越容易模型化未來環境的變遷,進而阻止不好的轉變發生。 而大資料幫助人類收集、儲存和挖掘更多的地球資料,同時還提供了預測的工具。
9、交通行為預測
基於使用者和車輛的LBS定位資料,分析人車出行的個體和群體特徵,進行交通行為的預測。交通部門可預測不同時點不同道路的車流量進行智慧的車輛排程,或應用潮汐車道;使用者則可以根據預測結果選擇擁堵機率更低的道路。
百度基於地圖應用的LBS預測涵蓋範圍更廣。春運期間預測人們的遷徙趨勢指導火車線路和航線的設定,節假日預測景點的人流量指導人們的景區選擇,平時還有百度熱力圖來告訴使用者城市商圈、動物園等地點的人流情況,指導使用者出行選擇和商家的選點選址。
多爾戈夫的團隊利用機器學習演算法來創造路上行人的模型。無人駕駛汽車行駛的每一英里路程的情況都會被記錄下來,汽車電腦就會保持這些資料, 並分析各種不同的物件在不同的環境中如何表現。有些司機的行為可能會被設定為固定變數(如“綠燈亮,汽車行”),但是汽車電腦不會死搬硬套這種邏輯,而是 從實際的司機行為中進行學習。
這樣一來,跟在一輛垃圾運輸卡車後面行駛的汽車,如果卡車停止行進,那麼汽車可能會選擇變道繞過去,而不是也跟著停下來。谷歌已建立了70萬英里的行駛資料,這有助於谷歌汽車根據自己的學習經驗來調整自己的行為。
http://www.5lian.cn/html/2014/chelianwang_0522/42125_4.html
10、能源消耗預測
加州電網系統運營中心管理著加州超過80%的電網,向3500萬用戶每年輸送2.89億兆瓦電力,電力線長度超過25000英里。該中心採用了 Space-Time Insight的軟體進行智慧管理,綜合分析來自包括天氣、感測器、計量裝置等各種資料來源的海量資料,預測各地的能源需求變化,進行智慧電能排程,平衡全 網的電力供應和需求,並對潛在危機做出快速響應。中國智慧電網業已在嘗試類似大資料預測應用。
二、大資料分析種類
- 按照資料分析的實時性,分為實時資料分析和離線資料分析兩種。
實時資料分析一般用於金融、移動和網際網路B2C等產品,往往要求在數秒內返回上億行資料的分析,從而達到不影響使用者體驗的目的。要滿足這樣的需求, 可以採用精心設計的傳統關係型資料庫組成並行處理叢集,或者採用一些記憶體計算平臺,或者採用HDD的架構,這些無疑都需要比較高的軟硬體成本。目前比較新 的海量資料實時分析工具有EMC的Greenplum、SAP的HANA等。
對於大多數反饋時間要求不是那麼嚴苛的應用,比如離線統計分析、機器學習、搜尋引擎的反向索引計算、推薦引擎的計算等,應採用離線分析的方式,通過 資料採集工具將日誌資料匯入專用的分析平臺。但面對海量資料,傳統的ETL工具往往徹底失效,主要原因是資料格式轉換的開銷太大,在效能上無法滿足海量數 據的採集需求。網際網路企業的海量資料採集工具,有Facebook開源的Scribe、LinkedIn開源的Kafka、淘寶開源的 Timetunnel、Hadoop的Chukwa等,均可以滿足每秒數百MB的日誌資料採集和傳輸需求,並將這些資料上載到Hadoop中央系統上。
- 按照大資料的資料量,分為記憶體級別、BI級別、海量級別三種。
這裡的記憶體級別指的是資料量不超過叢集的記憶體最大值。不要小看今天記憶體的容量,Facebook快取在記憶體的Memcached中的資料高達 320TB,而目前的PC伺服器,記憶體也可以超過百GB。因此可以採用一些記憶體資料庫,將熱點資料常駐記憶體之中,從而取得非常快速的分析能力,非常適合實 時分析業務。圖1是一種實際可行的MongoDB分析架構。
圖1 用於實時分析的MongoDB架構
MongoDB大叢集目前存在一些穩定性問題,會發生週期性的寫堵塞和主從同步失效,但仍不失為一種潛力十足的可以用於高速資料分析的NoSQL。
此外,目前大多數服務廠商都已經推出了帶4GB以上SSD的解決方案,利用記憶體+SSD,也可以輕易達到記憶體分析的效能。隨著SSD的發展,記憶體資料分析必然能得到更加廣泛的
應用。
BI級別指的是那些對於記憶體來說太大的資料量,但一般可以將其放入傳統的BI產品和專門設計的BI資料庫之中進行分析。目前主流的BI產品都有支援TB級以上的資料分析方案。種類繁多。
海量級別指的是對於資料庫和BI產品已經完全失效或者成本過高的資料量。海量資料級別的優秀企業級產品也有很多,但基於軟硬體的成本原因,目前大多 數網際網路企業採用Hadoop的HDFS分散式檔案系統來儲存資料,並使用MapReduce進行分析。本文稍後將主要介紹Hadoop上基於 MapReduce的一個多維資料分析平臺。
三、大資料分析一般過程
3.1 採集
大資料的採集是指利用多個數據庫來接收發自客戶端(Web、App或者感測器形式等)的 資料,並且使用者可以通過這些資料庫來進行簡單的查詢和處理工作。比如,電商會使用傳統的關係型資料庫MySQL和Oracle等來儲存每一筆事務資料,除 此之外,Redis和MongoDB這樣的NoSQL資料庫也常用於資料的採集。
在大資料的採集過程中,其主要特點和挑戰是併發數高,因為同時有可能會有成千上萬的使用者 來進行訪問和操作,比如火車票售票網站和淘寶,它們併發的訪問量在峰值時達到上百萬,所以需要在採集端部署大量資料庫才能支撐。並且如何在這些資料庫之間 進行負載均衡和分片的確是需要深入的思考和設計。
3.2 匯入/預處理
雖然採集端本身會有很多資料庫,但是如果要對這些海量資料進行有效的分析,還是應該將這 些來自前端的資料匯入到一個集中的大型分散式資料庫,或者分散式儲存叢集,並且可以在匯入基礎上做一些簡單的清洗和預處理工作。也有一些使用者會在匯入時使 用來自Twitter的Storm來對資料進行流式計算,來滿足部分業務的實時計算需求。
匯入與預處理過程的特點和挑戰主要是匯入的資料量大,每秒鐘的匯入量經常會達到百兆,甚至千兆級別。
3.3 統計/分析
統計與分析主要利用分散式資料庫,或者分散式計算叢集來對儲存於其內的海量資料進行普通 的分析和分類彙總等,以滿足大多數常見的分析需求,在這方面,一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata,以及基於 MySQL的列式儲存Infobright等,而一些批處理,或者基於半結構化資料的需求可以使用Hadoop。
統計與分析這部分的主要特點和挑戰是分析涉及的資料量大,其對系統資源,特別是I/O會有極大的佔用。
3.4 挖掘
與前面統計和分析過程不同的是,資料探勘一般沒有什麼預先設定好的主題,主要是在現有數 據上面進行基於各種演算法的計算,從而起到預測(Predict)的效果,從而實現一些高級別資料分析的需求。比較典型演算法有用於聚類的Kmeans、用於 統計學習的SVM和用於分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過程的特點和挑戰主要是用於挖掘的演算法很複雜,並 且計算涉及的資料量和計算量都很大,常用資料探勘演算法都以單執行緒為主。
四、大資料分析工具
4.1 Hadoop
Hadoop 是一個能夠對大量資料進行分散式處理的軟體框架。但是 Hadoop 是以一種可靠、高效、可伸縮的方式進行處理的。Hadoop 是可靠的,因為它假設計算元素和儲存會失敗,因此它維護多個工作資料副本,確保能夠針對失敗的節點重新分佈處理。Hadoop 是高效的,因為它以並行的方式工作,通過並行處理加快處理速度。Hadoop 還是可伸縮的,能夠處理 PB 級資料。此外,Hadoop 依賴於社群伺服器,因此它的成本比較低,任何人都可以使用。
Hadoop是一個能夠讓使用者輕鬆架構和使用的分散式計算平臺。使用者可以輕鬆地在Hadoop上開發和執行處理海量資料的應用程式。它主要有以下幾個優點:
⒈高可靠性。Hadoop按位儲存和處理資料的能力值得人們信賴。
⒉高擴充套件性。Hadoop是在可用的計算機集簇間分配資料並完成計算任務的,這些集簇可以方便地擴充套件到數以千計的節點中。
⒊高效性。Hadoop能夠在節點之間動態地移動資料,並保證各個節點的動態平衡,因此處理速度非常快。
⒋高容錯性。Hadoop能夠自動儲存資料的多個副本,並且能夠自動將失敗的任務重新分配。
Hadoop帶有用 Java 語言編寫的框架,因此執行在 Linux 生產平臺上是非常理想的。Hadoop 上的應用程式也可以使用其他語言編寫,比如 C++。
4.2 HPCC
HPCC,High Performance Computing and Communications(高效能運算與通訊)的縮寫。1993年,由美國科學、工程、技術聯邦協調理事會向國會提交了“重大挑戰專案:高效能運算與 通訊”的報告,也就是被稱為HPCC計劃的報告,即美國總統科學戰略專案,其目的是通過加強研究與開發解決一批重要的科學與技術挑戰問題。HPCC是美國 實施資訊高速公路而上實施的計劃,該計劃的實施將耗資百億美元,其主要目標要達到:開發可擴充套件的計算系統及相關軟體,以支援太位級網路傳輸效能,開發千兆 位元網路技術,擴充套件研究和教育機構及網路連線能力。
該專案主要由五部分組成:
1、高效能運算機系統(HPCS),內容包括今後幾代計算機系統的研究、系統設計工具、先進的典型系統及原有系統的評價等;
2、先進軟體技術與演算法(ASTA),內容有巨大挑戰問題的軟體支撐、新演算法設計、軟體分支與工具、計算計算及高效能運算研究中心等;
3、國家科研與教育網格(NREN),內容有中接站及10億位級傳輸的研究與開發;
4、基本研究與人類資源(BRHR),內容有基礎研究、培訓、教育及課程教材,被設計通過獎勵調查者-開始的,長期 的調查在可升級的高效能運算中來增加創新意識流,通過提高教育和高效能的計算訓練和通訊來加大熟練的和訓練有素的人員的聯營,和來提供必需的基礎架構來支 持這些調查和研究活動;
5、資訊基礎結構技術和應用(IITA ),目的在於保證美國在先進資訊科技開發方面的領先地位。
4.3 Storm
Storm是自由的開源軟體,一個分散式的、容錯的實時計算系統。Storm可以非常可靠的處理龐大的資料流,用於處理Hadoop的批量資料。 Storm很簡單,支援許多種程式語言,使用起來非常有趣。Storm由Twitter開源而來,其它知名的應用企業包括Groupon、淘寶、支付寶、 阿里巴巴、樂元素、Admaster等等。
Storm有許多應用領域:實時分析、線上機器學習、不停頓的計算、分散式RPC(遠過程呼叫協議,一種通過網路從遠端計算機程式上請求服務)、 ETL(Extraction-Transformation-Loading的縮寫,即資料抽取、轉換和載入)等等。Storm的處理速度驚人:經測 試,每個節點每秒鐘可以處理100萬個資料元組。Storm是可擴充套件、容錯,很容易設定和操作。
4.4 Apache Drill
為了幫助企業使用者尋找更為有效、加快Hadoop資料查詢的方法,Apache軟體基金會近日發起了一項名為“Drill”的開源專案。Apache Drill 實現了 Google’s Dremel.
據Hadoop廠商MapR Technologies公司產品經理Tomer Shiran介紹,“Drill”已經作為Apache孵化器專案來運作,將面向全球軟體工程師持續推廣。
該專案將會創建出開源版本的谷歌Dremel Hadoop工具(谷歌使用該工具來為Hadoop資料分析工具的網際網路應用提速)。而“Drill”將有助於Hadoop使用者實現更快查詢海量資料集的目的。
“Drill”專案其實也是從谷歌的Dremel專案中獲得靈感:該專案幫助谷歌實現海量資料集的分析處理,包括分析抓取Web文件、跟蹤安裝在Android Market上的應用程式資料、分析垃圾郵件、分析谷歌分散式構建系統上的測試結果等等。
通過開發“Drill”Apache開源專案,組織機構將有望建立Drill所屬的API介面和靈活強大的體系架構,從而幫助支援廣泛的資料來源、資料格式和查詢語言。
4.5 RapidMiner
RapidMiner是世界領先的資料探勘解決方案,在一個非常大的程度上有著先進技術。它資料探勘任務涉及範圍廣泛,包括各種資料藝術,能簡化資料探勘過程的設計和評價。
功能和特點
- 免費提供資料探勘技術和庫
- 100%用Java程式碼(可執行在作業系統)
- 資料探勘過程簡單,強大和直觀
- 內部XML保證了標準化的格式來表示交換資料探勘過程
- 可以用簡單指令碼語言自動進行大規模程序
- 多層次的資料檢視,確保有效和透明的資料
- 圖形使用者介面的互動原型
- 命令列(批處理模式)自動大規模應用
- Java API(應用程式設計介面)
- 簡單的外掛和推廣機制
- 強大的視覺化引擎,許多尖端的高維資料的視覺化建模
- 400多個數據挖掘運營商支援
耶魯大學已成功地應用在許多不同的應用領域,包括文字挖掘,多媒體挖掘,功能設計,資料流挖掘,整合開發的方法和分散式資料探勘。
4.6 Pentaho BI
Pentaho BI 平臺不同於傳統的BI 產品,它是一個以流程為中心的,面向解決方案(Solution)的框架。其目的在於將一系列企業級BI產品、開源軟體、API等等元件整合起來,方便商 務智慧應用的開發。它的出現,使得一系列的面向商務智慧的獨立產品如Jfree、Quartz等等,能夠整合在一起,構成一項項複雜的、完整的商務智慧解 決方案。
Pentaho BI 平臺,Pentaho Open BI 套件的核心架構和基礎,是以流程為中心的,因為其中樞控制器是一個工作流引擎。工作流引擎使用流程定義來定義在BI 平臺上執行的商業智慧流程。流程可以很容易的被定製,也可以新增新的流程。BI 平臺包含元件和報表,用以分析這些流程的效能。目前,Pentaho的主要組成元素包括報表生成、分析、資料探勘和工作流管理等等。這些元件通過 J2EE、WebService、SOAP、HTTP、Java、JavaScript、Portals等技術整合到Pentaho平臺中來。 Pentaho的發行,主要以Pentaho SDK的形式進行。
Pentaho SDK共包含五個部分:Pentaho平臺、Pentaho示例資料庫、可獨立執行的Pentaho平臺、Pentaho解決方案示例和一個預先配製好的 Pentaho網路伺服器。其中Pentaho平臺是Pentaho平臺最主要的部分,囊括了Pentaho平臺原始碼的主體;Pentaho資料庫為 Pentaho平臺的正常執行提供的資料服務,包括配置資訊、Solution相關的資訊等等,對於Pentaho平臺來說它不是必須的,通過配置是可以 用其它資料庫服務取代的;可獨立執行的Pentaho平臺是Pentaho平臺的獨立執行模式的示例,它演示瞭如何使Pentaho平臺在沒有應用伺服器 支援的情況下獨立執行;
Pentaho解決方案示例是一個Eclipse工程,用來演示如何為Pentaho平臺開發相關的商業智慧解決方案。
Pentaho BI 平臺構建於伺服器,引擎和元件的基礎之上。這些提供了系統的J2EE 伺服器,安全,portal,工作流,規則引擎,圖表,協作,內容管理,資料整合,分析和建模功能。這些元件的大部分是基於標準的,可使用其他產品替換之。
4.7 SAS Enterprise Miner
- § 支援整個資料探勘過程的完備工具集
- § 易用的圖形介面,適合不同型別的使用者快速建模
- § 強大的模型管理和評估功能
- § 快速便捷的模型釋出機制, 促進業務閉環形成
五、資料分析演算法
大資料分析主要依靠機器學習和大規模計算。機器學習包括監督學習、非監督學習、強化學習等,而監督學習又包括分類學習、迴歸學習、排序學習、匹配學 習等(見圖1)。分類是最常見的機器學習應用問題,比如垃圾郵件過濾、人臉檢測、使用者畫像、文字情感分析、網頁歸類等,本質上都是分類問題。分類學習也是 機器學習領域,研究最徹底、使用最廣泛的一個分支。
最近、Fernández-Delgado等人在JMLR(Journal of Machine Learning Research,機器學習頂級期刊)雜誌發表了一篇有趣的論文。他們讓179種不同的分類學習方法(分類學習演算法)在UCI 121個數據集上進行了“大比武”(UCI是機器學習公用資料集,每個資料集的規模都不大)。結果發現Random Forest(隨機森林)和SVM(支援向量機)名列第一、第二名,但兩者差異不大。在84.3%的資料上、Random Forest壓倒了其它90%的方法。也就是說,在大多數情況下,只用Random Forest 或 SVM事情就搞定了。
https://github.com/linyiqun/DataMiningAlgorithm
KNN
K最近鄰演算法。給定一些已經訓練好的資料,輸入一個新的測試資料點,計算包含於此測試資料點的最近的點的分類情況,哪個分類的型別佔多數,則此測試點的分類與此相同,所以在這裡,有的時候可以複製不同的分類點不同的權重。近的點的權重大點,遠的點自然就小點。詳細介紹連結
Naive Bayes
樸素貝葉斯演算法。樸素貝葉斯演算法是貝葉斯演算法裡面一種比較簡單的分類演算法,用到了一個比較重要的貝葉斯定理,用一句簡單的話概括就是條件概率的相互轉換推導。詳細介紹連結
樸素貝葉斯分類是一種十分簡單的分類演算法,叫它樸素貝葉斯分類是因為這種方法的思想真的很樸素,樸素貝葉斯的思想基礎是這樣的:對於給出的待分類 項,求解在此項出現的條件下各個類別出現的概率,哪個最大,就認為此待分類項屬於哪個類別。通俗來說,就好比這麼個道理,你在街上看到一個黑人,我問你你 猜這哥們哪裡來的,你十有八九猜非洲。為什麼呢?因為黑人中非洲人的比率最高,當然人家也可能是美洲人或亞洲人,但在沒有其它可用資訊下,我們會選擇條件 概率最大的類別,這就是樸素貝葉斯的思想基礎。
SVM
支援向量機演算法。支援向量機演算法是一種對線性和非線性資料進行分類的方法,非線性資料進行分類的時候可以通過核函式轉為線性的情況再處理。其中的一個關鍵的步驟是搜尋最大邊緣超平面。詳細介紹連結
Apriori
Apriori演算法是關聯規則挖掘演算法,通過連線和剪枝運算挖掘出頻繁項集,然後根據頻繁項集得到關聯規則,關聯規則的匯出需要滿足最小置信度的要求。詳細介紹連結
PageRank
網頁重要性/排名演算法。PageRank演算法最早產生於Google,核心思想是通過網頁的入鏈數作為一個網頁好快的判定標準,如果1個網頁內部包含了多個指向外部的連結,則PR值將會被均分,PageRank演算法也會遭到LinkSpan攻擊。詳細介紹連結
RandomForest
隨機森林演算法。演算法思想是決策樹+boosting.決策樹採用的是CART分類迴歸數,通過組合各個決策樹的弱分類器,構成一個最終的強分類器,在構造決策樹的時候採取隨機數量的樣本數和隨機的部分屬性進行子決策樹的構建,避免了過分擬合的現象發生。詳細介紹連結
Artificial Neural Network
“神經網路”這個詞實際是來自於生物學,而我們所指的神經網路正確的名稱應該是“人工神經網路(ANNs)”。
人工神經網路也具有初步的自適應與自組織能力。在學習或訓練過程中改變突觸權重值,以適應周圍環境的要求。同一網路因學習方式及內容不同可具有不同的功 能。人工神經網路是一個具有學習能力的系統,可以發展知識,以致超過設計者原有的知識水平。通常,它的學習訓練方式可分為兩種,一種是有監督或稱有導師的 學習,這時利用給定的樣本標準進行分類或模仿;另一種是無監督學習或稱無為導師學習,這時,只規定學習方式或某些規則,則具體的學習內容隨系統所處環境 (即輸入訊號情況)而異,系統可以自動發現環境特徵和規律性,具有更近似人腦的功能。
六、 案例
6.1 啤酒與尿布
“啤酒與尿布”的故事產生於20世紀90年代的美國沃爾瑪超市中,沃爾瑪的超市管理人員分析銷售資料時發現了一個令人難於理解的現象:在某些特定的 情況下,“啤酒”與“尿布”兩件看上去毫無關係的商品會經常出現在同一個購物籃中,這種獨特的銷售現象引起了管理人員的注意,經過後續調查發現,這種現象 出現在年輕的父親身上。
在美國有嬰兒的家庭中,一般是母親在家中照看嬰兒,年輕的父親前去超市購買尿布。父親在購買尿布的同時,往往會順便為自己購買啤酒,這樣就會出現啤 酒與尿布這兩件看上去不相干的商品經常會出現在同一個購物籃的現象。如果這個年輕的父親在賣場只能買到兩件商品之一,則他很有可能會放棄購物而到另一家商 店, 直到可以一次同時買到啤酒與尿布為止。沃爾瑪發現了這一獨特的現象,開始在賣場嘗試將啤酒與尿布擺放在相同的區域,讓年輕的父親可以同時找到這兩件商品, 並很快地完成購物;而沃爾瑪超市也可以讓這些客戶一次購買兩件商品、而不是一件,從而獲得了很好的商品銷售收入,這就是“啤酒與尿布” 故事的由來。
當然“啤酒與尿布”的故事必須具有技術方面的支援。1993年美國學者Agrawal提出通過分析購物籃中的商品集合,從而找出商品之間關聯關係的關聯演算法,並根據商品之間的關係,找出客戶的購買行為。艾格拉沃從數學及計算機演算法角度提 出了商品關聯關係的計算方法——Aprior演算法。沃爾瑪從上個世紀 90 年代嘗試將 Aprior演算法引入到 POS機資料分析中,並獲得了成功,於是產生了“啤酒與尿布”的故事。
6.2 資料分析幫助辛辛那提動物園提高客戶滿意度
辛辛那提動植物園成立於1873年,是世界上著名的動植物園之一,以其物種保護和儲存以及高成活率繁殖飼養計劃享有極高聲譽。它佔地面積71英畝, 園內有500種動物和3000多種植物,是國內遊客人數最多的動植物園之一,曾榮獲Zagat十佳動物園,並被《父母》(Parent)雜誌評為最受兒童 喜歡的動物園,每年接待遊客130多萬人。
辛辛那提動植物園是一個非營利性組織,是俄亥州同時也是美國國內享受公共補貼最低的動植物園,除去政府補貼,2600萬美元年度預算中,自籌資金部 分達到三分之二以上。為此,需要不斷地尋求增加收入。而要做到這一點,最好辦法是為工作人員和遊客提供更好的服務,提高遊覽率。從而實現動植物園與客戶和 納稅人的雙贏。
藉助於該方案強大的收集和處理能力、互聯能力、分析能力以及隨之帶來的洞察力,在部署後,企業實現了以下各方面的受益:
- 幫助動植物園瞭解每個客戶瀏覽、使用和消費模式,根據時間和地理分佈情況採取相應的措施改善遊客體驗,同時實現營業收入最大化。
- 根據消費和遊覽行為對動植物園遊客進行細分,針對每一類細分遊客開展營銷和促銷活動,顯著提高忠誠度和客戶保有量。.
- 識別消費支出低的遊客,針對他們傳送具有戰略性的直寄廣告,同時通過具有創意性的營銷和激勵計劃獎勵忠誠客戶。
- 360度全方位瞭解客戶行為,優化營銷決策,實施解決方案後頭一年節省40,000多美元營銷成本,同時強化了可測量的結果。
- 採用地理分析顯示大量未實現預期結果的促銷和折扣計劃,重新部署資源支援產出率更高的業務活動,動植物園每年節省100,000多美元。
- 通過強化營銷提高整體遊覽率,2011年至少新增50,000人次“遊覽”。
- 提供洞察結果強化運營管理。例如,即將關門前冰激淋銷售出現高潮,動植物園決定延長冰激淋攤位營業時間,直到關門為止。這一措施夏季每天可增加2,000美元收入。
- 與上年相比,餐飲銷售增加30.7%,零售銷售增加5.9%。
- 動植物園高層管理團隊可以制定更好的決策,不需要 IT 介入或提供支援。
- 將分析引入會議室,利用直觀工具幫助業務人員掌握資料。
6.3 雲南昭通警察打中學生事件輿情分析
起因:
5月20日,有網友在微博上爆料稱:雲南昭通魯甸二中初二學生孔德政,對著3名到該校出警並準備上車返回的警察說了一句“打電話那個,下來”,車內的兩名警員聽到動靜後下來,追到該學生後就是一頓拳打腳踢。
5月26日,昭通市魯甸縣公安局新聞辦迴應此事:魯甸縣公安局已對當事民警停止執行職務,對毆打學生的兩名協警作出辭退處理,並將根據調查情況依法依規作進一步處理。同時,魯甸縣公安局將加大隊伍教育管理力度,堅決防止此類事件的再次發生。
經過:
5月26日,事件的輿情熱度急劇上升,媒體報道內容側重於“班主任稱此學生平時愛起鬨學習成績差”“被打學生的同學去派出所討說法”“學校要求學生刪除照片”等方面,而學校要求刪除圖片等行為的曝光讓事件輿情有擴大化趨勢。
5月26日晚間,新華網釋出新聞《警方迴應“雲南一學生遭2名警察暴打”:民警停職協警辭退》,中央主流網路媒體公佈官方處置結果,網易、新浪、騰訊等入口網站予以轉發,從而讓官方的處置得以較大範圍傳播。
昭通警察打中學生事件輿論關注度走勢(抽樣條數:290條)
總結:
“警察打學生,而且有圖有真相,在事發5天后,昭通市魯甸縣警方最終還是站在了輿論的風口浪尖。事發後當地官方積極迴應,並於5月26日將涉事人予以處理,果斷的責任切割較為有效地撫平了輿論情緒,從而較好地化解了此次輿論危機。
從事件的傳播來看,事發時間是5月20日,輿論熱議則出現在25日,4天的平靜期讓魯甸警方想當然地以為事件就此了結,或許當事人都已淡忘此 事。如果不是雲南當地活躍網友“直播雲南”於5月25日釋出關於此事的訊息,並被當地傳統媒體《生活新報》關注的話,事情或許真的就此結束,然而輿情發展 不允許假設的存在。這一點,至少給我們以警示,對微博等自媒體平臺上的負面資訊要實時監測,對普通草根要監測,對本地實名認證的活躍網友更需監測。從某種 角度看,本地實名認證的網友是更為強大的“輿論發動機”,負面訊息一旦經他們釋出或者轉發,所帶來的傳播和形成的輿論壓力更大。
在此事件中,校方也扮演著極為重要的角色。無論是被打學生的班主任,還是學校層面,面對此事件的迴應都欠妥當。學校層面的“刪除照片”等指示極 易招致網友和學生的反感,在此反感情緒下,只會加劇學生傳播事件的衝動。班主任口中該學生“學習不好、愛起鬨”等負面印象被理解成“該學生活該被打”,在 教師整體形象不佳的背景下,班主任的這些言論是責任感缺失的一種體現。校方和班主任的不恰當行為讓事件處置難度和輿論引導難度明顯增加,實在不該。“ --- 人民網輿情監測室主任輿情分析師 朱明剛
七、大資料雲圖展示