大資料最核心的價值
有這樣一段話:社交網路,讓我們越來越多地從資料中觀察到人類社會的複雜行為模式。社交網路,為大資料提供了資訊彙集、分析的第一手資料。從龐雜的資料背後挖掘、分析使用者的行為習慣和喜好,找出更符合使用者“口味”的產品和服務,並結合使用者需求有針對性地調整和優化自身,就是大資料的價值。
下面是一些長篇的討論,這裡我把大資料的核心價值理解為核心商業價值。
“很多人還沒搞清楚什麼是PC網際網路,移動網際網路來了,我們還沒搞清楚移動互聯的時候,大資料時代又來了。”——馬雲卸任演講
本文嘗試從三大產業的角度將大資料的核心商業價值分類討論。
首先例舉一些大資料的典型應用,然後解釋大資料的定義,最後總結大資料的價值。
我們知道:
- 第一次工業革命以煤炭為基礎,蒸汽機和印刷術為標誌,
- 第二次工業革命以石油為基礎,內燃機和電信技術為標誌,
- 第三次工業革命以核能基礎,網際網路技術為標誌,
- 第四次工業革命以可再生能源為基礎,_________為標誌。
空白處你會填上什麼?歡迎大家討論。但是目前可以預測的是,資料和內容作為網際網路的核學習大資料加q群805127855心,不論是傳統行業還是新型行業,誰率先與網際網路融合成功,能夠從大資料的金礦中發現暗藏的規律,就能夠搶佔先機,成為技術改革的標誌。
一、大資料的應用
大資料探勘商業價值的方法主要分為四種:
- 客戶群體細分,然後為每個群體量定製特別的服務。
- 模擬現實環境,發掘新的需求同時提高投資的回報率。
- 加強部門聯絡,提高整條管理鏈條和產業鏈條的效率。
- 降低服務成本,發現隱藏線索進行產品和服務的創新。
- Mckinsey列出了各個行業利用大資料價值的難易度以及發展潛力。《Big data: The next frontier for innovation, competition, and productivity》
學習大資料加q群805127855
- 各種Data之間的關係圖,注意Open Data是完全包含了Open government data(政府開放資料)
- Mckinsey也列出了Open Data時代裡七大行業潛在的經濟價值,自上而下分別是教育,運輸,消費品、電力、石油與天然氣、醫療護理、消費
大資料的型別大致可分為三類:
- 傳統企業資料(Traditional enterprise data):包括 CRM systems的消費者資料,傳統的ERP資料,庫存資料以及賬目資料等。
- 機器和感測器資料(Machine-generated /sensor data):包括呼叫記錄(Call Detail Records),智慧儀表,工業裝置感測器,裝置日誌(通常是Digital exhaust),交易資料等。
- 社交資料(Social data):包括使用者行為記錄,反饋資料等。如Twitter,Facebook這樣的社交媒體平臺。
從理論上來看:所有產業都會從大資料的發展中受益。但由於資料缺乏以及從業人員本身的原因,第一、第二產業的發展速度相對於第三產業來說會遲緩一些。
1985年,我國國家統計局明確地把我國產業劃分為三大產業:
- 農業(包括林業、牧業、漁業等)定為第一產業。
- 工業(包括採掘業、製造業、自來水、電力、蒸汽、煤氣)和建築業定為第二產業。
- 把第一、二產業以外的各行業定為第三產業。
第三產業即除第一、第二產業以外的向全社會提供各種各樣勞務的服務性行業,主要是服務業。其中第三產業可具體分為兩大部門:一是流通部門;二是服務部門。再細分又可分為四個層次:
- 第一層次,流通部門。包括交通運輸行業、郵電通訊行業、物資供銷和倉儲行業。
- 第二層次,為生產和生活服務的部門。包括金融業、商業飲食業、保險業、地質普查業、房地產業、公用事業、技術服務業和生活服務修理業務;
- 第三層次,為提高科學文化水平和居民素質服務的部門。包括教育文化、廣播電視事業、科學研究事業、衛生、體育和社會福利事業;
- 第四層次,為社會公共需要服務的部門。包括國家機關、黨政機關、社會團體、以及軍隊和警察公安司法機關等。
我們可以看出,由於某些客觀原因,相對於第一產業和第二產業來說,第三產業憑藉自身的優勢,大多匯聚了當前最海量的資料以及大批的科研中堅力量。接下來讓我們看一些典型例子,當前新形勢下與三大產業密切相關的大資料應用。
(1).第一產業
孟山都是一家美國的跨國農業生物技術公司,其生產的旗艦產品抗農達,即年年春(Roundup)是全球知名的嘉磷塞除草劑,長期佔據市場第一個位置。該公司目前也是基因改造(GE)種子的領先生產商,佔據了多種農作物種子70%–100%的市場份額,而在美國本土,更佔有整個市場的90%。已經統治了生物工程種子業務超過十年。 孟山都首先發起“Green Data Revolution”運動,建立農業資料聯盟(Open Ag Data Alliance)來統一資料標準,讓農民不用懂“高科技”也能享受大資料的成果。典型的應用如農場裝置製造商John Deere與DuPont Pioneer當前聯合提供“決策服務(Decision Services)”,農民只需在駕駛室裡拿出平板電腦,收集種子監視器傳來的資料,然後將其上傳給伺服器,最終伺服器返回化肥的配方到農場拖拉機上。
The Climate Corporation為農民提供Total Weather Insurance (TWI)——涵蓋全年各季節的天氣保險專案。利用公司特有的資料採集與分析平臺,每天從250萬個採集點獲取天氣資料,並結合大量的天氣模擬、海量的植物根部構造和土質分析等資訊對意外天氣風險做出綜合判斷,然後向農民提供農作物保險。前不久從Google Ventures、Founders Fund等多家公司獲得超過5000萬美元的風險投資。 2013年被孟山都收購。
- ,農業
Solum目標是實現高效、精準的土壤抽樣分析,以幫助種植者在正確的時間、正確的地點進行精確施肥。農戶既可以通過公司開發的No Wait Nitrate系統在田間進行分析即時獲取資料;也可以把土壤樣本寄給該公司的實驗室進行分析。2012年獲得Andreessen Horowitz 領投的1700萬美元投資後,已累計融資近2000萬美元。學習大資料加q群805127855(2).第二產業 2013年9月,工業和資訊化部發布了《關於印發資訊化和工業化深度融合專項行動計劃(2013-2018年)》的通知。明確提出推動物聯網在工業領域的整合創新和應用:
實施物聯網發展專項,在重點行業組織開展試點示範,以感測器和感測器網路、RFID、工業大資料的應用為切入點,重點支援生產過程控制、生產環境檢測、製造供應鏈跟蹤、遠端診斷管理等物聯網應用,促進經濟效益提升、安全生產和節能減排。
大資料的業務多是資料驅動型,具有資料量大、種類多、實時性高的特點。工業企業對資料的記錄以往看來主要分為兩種方法:傳統的紙筆和Excel電子表格記錄。這些操作起來看似簡單的資料管理方式為企業生產及質量監控埋下了巨大的隱患,也讓資料探勘無從談起。 隨著資訊化與工業化的融合發展,資訊科技滲透到了工業企業產業鏈的各個環節。例如Sensor、RFID、Barcode、物聯網等技術已經在企業中得到初步應用,工業大資料也開始逐漸得到積累。企業中生產線高速運轉時機器所產生的資料量不亞於計算機資料,而且資料型別多是非結構化資料,對資料的實時性要求也更高。因此工業大資料所面臨的問題和挑戰很多,所以通用電氣公司(General Electric)的副總裁兼全球技術總監William Ruh認為相對於工業大資料來說,工業網際網路(Industrial Internet)才是當前急需的,因為大資料本身並沒有讓資訊的提取更加智慧,業務比資料本身更加重要。他舉了一個核磁共振成像掃描的例子:
Here’s an example. An MRI scan is the best way to see inside the human body. While effective in helping to diagnose multiple sclerosis, brain tumors, torn ligaments and strokes, the data produced by an MRI machine is disconnected from the person that needs it the most.
At a very simplistic level, there are many individuals working as a team to make the scan happen. A nurse administers medications or contrast agents that may be needed for the exam; an MRI technologist operates the scanner; and a radiologist identifies the imaging sequences to be used and interprets the images. This information is then given to the nurse, who then passes it to the primary doctor to review and take action accordingly. This is Big Data, but it is not making information more intelligent.
又如在工業中,壓力、溫度等資料的特點是需要語境才能理解的。燃氣輪機排氣裝置上的溫度讀數與一臺機車的內部溫度是完全不同的。燃氣輪機改善熱敷需要使用非常複雜的演算法執行模型。在膝上型電腦上,一個典型的查詢要獲得答案一般需要三個星期。在基於大資料的分散式系統上釋出同樣的查詢執行一種計算只需要不到一秒鐘。
德國漢德技術監督服務有限公司的前身是德國鍋爐檢驗協會(簡稱TÜV)早在1869年,德國鍋爐檢驗協會就承擔了德國國內所有鍋爐執行安全的檢驗工作,保證了鍋爐生產的安全。漸漸的,德國鍋爐檢驗協會取得了德國政府的授權,開展對其他產品的檢驗工作,從採礦,電力系統開始,到壓力容器,機動車輛,醫療裝置,環境保護,宇航工業,醫療產品等等,現在的德國漢德技術監督服務有限公司已經成為了許許多多產品的安全代號。主要體系認證包括企業質量管理體系,生產環境體系,生產碳排放方案等。TÜV當前從建築綠色標準體系方面提出了對於大資料能源管理的探索,以微軟新總部,蒂森克虜伯電梯總部為例,在整個專案實施中引入大資料能源管理,在建築的設計規劃階段、施工階段、運營階段等多個階段通過資料化的能源管理系統,實現建築的低碳、綠色、智慧。
Wonderware作為系統軟體涉及的專業企業,對於大資料的計算和運用是從比較“IT”的角度出發的。Wonderware 的實時資料管理軟體能夠提供一個工廠所需要的從建立到報廢的所有實時資料。目前已經退出移動版本,工程總監在手機上就能夠隨時隨地監控裝置的執行狀況。目前全球超過三分之一的工廠應用Wonderware公司的軟體解決方案。
(3).第三產業
這一個部分的內容比較多。這裡只提出一些典型的應用例子,歡迎補充。
- 視訊:網際網路電視能夠追蹤你正在看的內容,看了多長時間,甚至能夠識別多少人坐在電視機前,來確定這個頻道的流行度。Netflix 美國國內規模最大的商業視訊流供應商,收集的資料包括使用者在看什麼、喜歡在什麼時段觀看、在哪裡觀看以及使用哪些裝置觀看等。甚至記錄使用者在哪視訊的哪個時間點後退、快進或者暫停,乃至看到哪裡直接將視訊關掉等資訊。典型的應用是Netflix公司利用資料說服BBC重新翻拍了電視連結劇《紙牌屋》,而且成功的挖掘出演員Kevin Spacey和導演David Fincher的支持者與原劇集粉絲的關聯性,確定新劇拍攝的最佳人選。
When the program, a remake of a BBC miniseries, was up for purchase in 2011 with David Fincher and Kevin Spacey attached, the folks at Netflix simply looked at their massive stash of data. Subscribers who watched the original series, they found, were also likely to watch movies directed by David Fincher and enjoy ones that starred Kevin Spacey. Considering the material and the players involved, the company was sure that an audience was out there.
學習大資料加q群805127855
- 交通:《車來了》通過分析公交車上GPS定位系統每天的位置和時間資料,結合時刻表預測出每一輛公交車的到站時間;WNYC開發的Transit Time NYC通過開源行程平臺(Github:OpenTripPlanner和MTA )獲取的資料將紐約市劃分成2930個六邊形,模擬出從每一個六邊形中點到邊緣的時間(地鐵和步行,時間是上午九點),最終建模出4290985條虛擬線路。使用者只需點選地圖或者輸入地址就能知道地鐵到達每個位置的時間;實時交通資料採集商INRIX-Traffic的口號是(永不遲到!^^),通過記錄每位使用者在行駛過程中的實時資料例如行駛車速,所在位置等資訊並進行資料彙總分析,而後計算出最佳線路,讓使用者能夠避開擁堵。
- 電子商務:Decide 是一家預測商品價格併為消費者提出購買時間建議的創業公司,通過抓取亞馬遜、百思買、新蛋及全球各大網站上數以十億計的資料進行分析,最終整合在一個頁面中方便消費者對比檢視,並且能夠預測產品的價格趨勢,幫助使用者確定商品的最好購買時機。已經於2013年被 eBay收購。
- 政治:奧巴馬在總統競選中使用大資料分析來收集選民的資料,讓他可以專注於對他最感興趣的選民,谷歌執行董事長Eric Schmidt當時向奧巴馬的大資料分析團隊投資數百萬美元並聚攏核心成員成立了Civis Analytics諮詢公司,該公司將會將在奧巴馬連任競選中所獲得的經驗應用到商業和非營利行業中。
- 金融:ZestFinance | Big Data Underwriting 是由是Google的前任 CIO,Douglas Merrill創立金融資料分析服務提供商,使用機器學習演算法和大資料為放款者提供承保模式,旨在為那些個人信用不良或者不滿足傳統銀行貸款資格的個人提供服務。公司使用分析模型對每位信貸申請人的上萬條原始資訊資料進行分析,只需幾秒時間便可以得出超過十萬個行為指標。目前違約率比行業平均水平低 60%左右。另外一個不得不提到的是風險管理先驅者FICO | Predictive Analytics, Big Data Analytics and FICO Credit Scores,通過大資料分析為銀行和信用卡髮卡機構、保險、醫療保健、政府和零售行業提供服務。FICO 信用分計算的基本思想是:把借款人過去的信用歷史資料與資料庫中的全體借款人的信用習慣相比較,檢查借款人的發展趨勢跟經常違約、隨意透支、甚至申請破產等各種陷入財務困境的借款人的發展趨勢是否相似。FICO 已經為三分之二的世界 100 強銀行提供服務,提高了客戶忠誠度和盈利率、減少欺詐損失、管理信貸風險、滿足監管與競爭要求並快速獲取市場份額。。
- 電信: 美國T-mobiles採用Informatica - The Integration Company平臺開展大資料工作,通過整合資料綜合分析客戶流失的原因,根據分析結果優化網路佈局為客戶提供了更好的體驗,在一個季度內將流失率減半;韓國 SK telecom新成立一家公司SK Planet,通過大資料分析使用者的使用行為,在使用者做出決定之前推出符合使用者興趣的業務防止使用者流失。美國AT&T 公司將記錄使用者在Wifi網路中的地理位置、網路瀏覽歷史記錄以及使用的應用等資料銷售給廣告客戶。比如當用戶距離商家很近時,就有可能收到該商家提供的折扣很大的電子優惠券。英國BT - Broadband公司釋出了新的安全資料分析服務Assure Analytics—BT news releases,幫助企業收集、管理和評估大資料集,將這些資料通過視覺化的方式呈現給企業,幫助企業改進決策。
一般來說盈利性質的商業公司和企業都不會輕易洩露自己的資料、建模方法和分析過程,所以還有很多大家不知道的神祕應用潛伏在黑暗裡,如同《三體》中的”黑暗森林法則“。
宇宙就是一座黑暗森林,每個文明都是帶槍的獵人,像幽靈般潛行於林間,輕輕撥開擋路的樹枝,竭力不讓腳步發出一點兒聲音,連呼吸都必須小心翼翼:他必須小心,因為林中到處都有與他一樣潛行的獵人,如果他發現了別的生命,能做的只有一件事:開槍消滅之。在這片森林中,他人就是地獄,就是永恆的威脅,任何暴露自己存在的生命都將很快被消滅,這就是宇宙文明的圖景,這就是對費米悖論的解釋。
二、大資料的定義
大資料(Big Data)是指“無法用現有的軟體工具提取、儲存、搜尋、共享、分析和處理的海量的、複雜的資料集合。”業界通常用4個V(即Volume、Variety、Value、Velocity)來概括大資料的特徵。
- 資料體量巨大(Volume)。截至目前,人類生產的所有印刷材料的資料量是200PB,而歷史上全人類說過的所有的話的資料量大約是5EB(1EB=210PB)。
- 資料型別繁多(Variety)。相對於以往便於儲存的以文字為主的結構化資料,非結構化資料越來越多,包括網路日誌、音訊、視訊、圖片、地理位置資訊等,這些多型別的資料對資料的處理能力提出了更高要求。
- 價值密度低(Value)。價值密度的高低與資料總量的大小成反比。如何通過強大的機器演算法更迅速地完成資料的價值“提純”成為目前大資料背景下亟待解決的難題。
- 處理速度快(Velocity)。大資料區分於傳統資料探勘的最顯著特徵。根據IDC的“數字宇宙”的報告,預計到2020年,全球資料使用量將達到35.2ZB。學習大資料加q群805127855
不是隨機樣本,而是全體資料;不是精確性,而是混雜性;不是因果關係,而是相關關係。
大資料時代下的核心,預測分析已在商業和社會中得到廣泛應用。隨著越來越多的資料被記錄和整理,未來預測分析必定會成為所有領域的關鍵技術。
從資料的類別上看,“大資料”指的是無法使用傳統流程或工具處理或分析的資訊。 它定義了那些超出正常處理範圍和大小、迫使使用者採用非傳統處理方法的資料集。
三、大資料的價值
瞭解了大資料的典型應用,理解了大資料的定義。這時相信在每個人的心中,關於大資料的價值都有了自己的答案。
2010年《Science》上刊登了一篇文章指出,雖然人們的出行的模式有很大不同,但我們大多數人同樣是可以預測的。這意味著我們能夠根據個體之前的行為軌跡預測他或者她未來行蹤的可能性,即93%的人類行為可預測。
Limits of Predictability in Human Mobility
A range of applications, from predicting the spread of human and electronic viruses to city planning and resource management in mobile communications, depend on our ability to foresee the whereabouts and mobility of individuals, raising a fundamental question: To what degree is human behavior predictable? Here we explore the limits of predictability in human dynamics by studying the mobility patterns of anonymized mobile phone users. By measuring the entropy of each individual’s trajectory, we find a 93% potential predictability in user mobility across the whole user base. Despite the significant differences in the travel patterns, we find a remarkable lack of variability in predictability, which is largely independent of the distance users cover on a regular basis.
而大數定理告訴我們,在試驗不變的條件下,重複試驗多次,隨機事件的頻率近似於它概率。“有規律的隨機事件”在大量重複出現的條件下,往往呈現幾乎必然的統計特性。
舉個例子,我們向上拋一枚硬幣,硬幣落下後哪一面朝上本來是偶然的,但當我們上拋硬幣的次數足夠多後,達到上萬次甚至幾十萬幾百萬次以後,我們就會發現,硬幣每一面向上的次數約佔總次數的二分之一。偶然中包含著某種必然。
隨著計算機的處理能力的日益強大,你能獲得的資料量越大,你能挖掘到的價值就越多。 實驗的不斷反覆、大資料的日漸積累讓人類發現規律,預測未來不再是科幻電影裡的讀心術。
- 如果銀行能及時地瞭解風險,我們的經濟將更加強大。
- 如果政府能夠降低欺詐開支,我們的稅收將更加合理。
- 如果醫院能夠更早發現疾病,我們的身體將更加健康。
- 如果電信公司能夠降低成本,我們的話費將更加便宜。
- 如果交通動態天氣能夠掌握,我們的出行將更加方便。
- 如果商場能夠動態調整庫存,我們的商品將更加實惠。
最終,我們都將從大資料分析中獲益。四、結束語。 Here's the thing about the future.關於未來有一個重要的特徵 Every time you look at it,每一次你看到了未來 it changes because you looked at it.它會跟著發生改變 因為你看到了它 And that changes everything else.然後其它事也跟著一起改變了資料本身不產生價值,如何分析和利用大資料對業務產生幫助才是關鍵。祝每一個DMer都挖掘到金礦和快樂:)學習大資料加q群805127855