1. 程式人生 > >什麼叫大資料 大資料的概念

什麼叫大資料 大資料的概念

google流感趨勢(Google Flu Trends)利用搜索關鍵詞預測禽流感的散佈。

統計學家內特.西爾弗(Nate Silver)利用大資料預測2012美國選舉結果。

麻省理工學院利用手機定位資料和交通資料建立城市規劃。

梅西百貨的實時定價機制,根據需求和庫存的情況,該公司基於SAS的系統對多達7300萬種貨品進行實時調價。

Tipp24 AG針對歐洲博彩業構建的下注和預測平臺。該公司用KXEN軟體來分析數十億計的交易以及客戶的特性,然後通過預測模型對特定使用者進行動態的營銷活動。這項舉措減少了90%的預測模型構建時間。SAP公司正在試圖收購KXEN。“SAP想通過這次收購來扭轉其長久以來在預測分析方面的劣勢。”Laney分析到。

PredPol Inc. 公司通過與洛杉磯和聖克魯斯的警方以及一群研究人員合作,基於地震預測演算法的變體和犯罪資料來預測犯罪發生的機率,可以精確到500平方英尺的範圍內。在洛杉磯運用該演算法的地區,盜竊罪暴力犯罪分佈下降了33%和21%。

American Express(美國運通,AmEx)和商業智慧。以往,AmEx只能實現事後諸葛式的報告和滯後的預測。“傳統的BI已經無法滿足業務發展的需要。”Laney認為。於是,AmEx開始構建真正能夠預測忠誠度的模型,基於歷史交易資料,用115個變數來進行分析預測。該公司表示,對於澳大利亞將於之後四個月中流失的客戶,已經能夠識別出其中的24%。

大資料實踐 基礎架構先行Express Scripts Holding Co.的產品製造。該公司發現那些需要服藥的人常常也是最可能忘記服藥的人。因此,他們開發了一個新產品:會響鈴的藥品蓋和自動的電話呼叫,以此提醒患者按時服藥。

Infinity Property & Casualty Corp.的黑暗資料(dark data)。Laney對於黑暗資料的定義是,那些針對單一目標而收集的資料,通常用過之後就被歸檔閒置,其真正價值未能被充分挖掘。在特定情況下,這些資料可以用作其他用途。該公司用累積的理賠師報告來分析欺詐案例,通過演算法挽回了1200萬美元的代位追償金額。

利用起網際網路大資料,對消費者的喜好進行判定。商戶可以為消費者定製相應的獨特的個性服務,甚至可以在一些商品或者服務上匹配使用者心情等等。商家還可以根據大資料為消費者提供其可能會喜好的特色產品,活動,小而美的小眾商品等等 。

地產業的升級改造,具有令人興奮的商業前景。一個Shopping Mall的投資往往高達數十億元,設想一下,如果智慧化升級能夠讓一個Shopping Mall的顧客數量和人均消費提升30%-50%,為此投入幾百萬元甚至上千萬元對於投資方來說非常划算,那麼僅僅針對國內Shopping Mall的智慧化升級就是一個千億元級別的市場。

經典大資料案例-沃爾瑪經典營銷:啤酒與尿布

“啤酒與尿布”的故事產生於20世紀90年代美國沃爾瑪超市中,沃爾瑪的超市管理人員分析銷售資料時發現了一個令人難於理解的現象:在某些特定的情況下,“啤酒”與“尿布”兩件看上去毫無關係的商品會經常出現在同一個購物籃中,這種獨特的銷售現象引起了管理人員的注意,經過後續調查發現,這種現象出現在年輕的父親身上。

在美國有嬰兒的家庭中,一般是母親在家中照看嬰兒,年輕的父親前去超市購買尿布。父親在購買尿布的同時,往往會順便為自己購買啤酒,這樣就會出現啤酒與尿布這兩件看上去不相干的商品經常會出現在同一個購物籃的現象。如果這個年輕的父親在賣場只能買到兩件商品之一,則他很有可能會放棄購物而到另一家商店, 直到可以一次同時買到啤酒與尿布為止。沃爾瑪發現了這一獨特的現象,開始在賣場嘗試將啤酒與尿布擺放在相同的區域,讓年輕的父親可以同時找到這兩件商品,並很快地完成購物;而沃爾瑪超市也可以讓這些客戶一次購買兩件商品、而不是一件,從而獲得了很好的商品銷售收入,這就是“啤酒與尿布” 故事的由來。

當然“啤酒與尿布”的故事必須具有技術方面的支援。1993年美國學者Agrawal提出通過分析購物籃中的商品集合,從而找出商品之間關聯關係的關聯演算法,並根據商品之間的關係,找出客戶的購買行為。艾格拉沃從數學及計算機演算法角度提 出了商品關聯關係的計算方法——Aprior演算法。沃爾瑪從上個世紀 90 年代嘗試將 Aprior 算 法引入到 POS機資料分析中,並獲得了成功,於是產生了“啤酒與尿布”的故事。

IBM戰略

IBM的大資料戰略以其在2012年5月釋出智慧分析洞察“3A5步”動態路線圖作為基礎。所謂“3A5步”,指的是在“掌握資訊”(Align)的基礎上“獲取洞察”(Anticipate),進而採取行動(Act),優化決策策劃能夠救業務績效。除此之外,還需要不斷地“學習”(Learn)從每一次業務結果中獲得反饋,改善基於資訊的決策流程,從而實現“轉型”(Transform)。

大資料基於“3A5步”動態路線圖,IBM提出了“大資料平臺”架構。該平臺的四大核心能力包括Hadoop系統、流計算(StreamComputing)、資料倉庫(Data Warehouse)和資訊整合與治理(Information Integration and Governance)。

在大資料處理領域,IBM於2012年10月推出了IBMPureSystems專家整合系統的新成員——IBM PureData系統。這是IBM在資料處理領域釋出的首個整合系統產品系列。PureData系統具體包含三款產品,分別為PureDataSystem for Transactions、PureData System forAnalytics和PureData System for Operational Analytics,可分別應用於OLTP(聯機事務處理)、OLAP(聯機分析處理)和大資料分析操作。與此前釋出的IBMPureSystems系列產品一樣,IBM PureData系統提供內建的專業知識、源於設計的整合,以及在其整個生命週期中的簡化體驗。

斯隆數字巡天收集在其最初的幾個星期,就比在天文學的歷史上之前的2000年的收集了更多的資料。自那時以來,它已經積累了140兆兆 位元組的資訊。這個望遠鏡的繼任者,大天氣巡天望遠鏡,將於2016年在網上將獲得資料公佈,沃爾瑪每隔一小時處理超過100萬客戶的交易,錄入量資料庫估計超過2.5 PB相當於美國國會圖書館的書籍的167倍 。FACEBOOK從它的使用者群獲得並處理400億張照片。解碼最原始的人類基因組花費10年時間處理,如今可以在一個星期內實現。

“大資料”的影響,增加了對資訊管理專家的需求,甲骨文,IBM,微軟和SAP花了超過15億美元的在軟體智慧資料管理和分析的專業公司。這個行業自身價值超過1000億美元,增長近10%,每年兩次,這大概是作為一個整體的軟體業務的快速。

大資料已經出現,因為我們生活在一個有更多資訊的社會中。有46億全球行動電話使用者有20億人訪問網際網路。基本上,人們比以往任何時候都與資料或資訊互動。 1990年至2005年,全球超過1億人進入中產階級,這意味著越來越多的人收益的這筆錢將反過來導致更多的資訊增長。思科公司預計,到2013年,在網際網路上流動的交通量將達到每年667艾位元組。

大資料,其影響除了經濟方面的,它同時也能在政治、文化等方面產生深遠的影響,大資料可以幫助人們開啟循“數”管理的模式,也是我們當下“大社會”的集中體現,三分技術,七分資料,得資料者得天下。