大資料 (巨量資料集合(IT行業術語))
大資料(large data),指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的資料集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的資訊資產。[1]
在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大資料時代》[2] 中大資料指不用隨機分析法(抽樣調查)這樣捷徑,而採用所有資料進行分析處理。大資料的5V特點(IBM提出):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)、Veracity(真實性)。[3]
對於“大資料”(Big data)研究機構Gartner給出了這樣的定義。“大資料”是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力來適應海量、高增長率和多樣化的資訊資產。[1]
麥肯錫全球研究所給出的定義是:一種規模大到在獲取、儲存、管理、分析方面大大超出了傳統資料庫軟體工具能力範圍的資料集合,具有海量的資料規模、快速的資料流轉、多樣的資料型別和價值密度低四大特徵。[4]
大資料技術的戰略意義不在於掌握龐大的資料資訊,而在於對這些含有意義的資料進行專業化處理。換而言之,如果把大資料比作一種產業,那麼這種產業實現盈利的關鍵,在於提高對資料的“加工能力”,通過“加工”實現資料的“增值”。[5]
從技術上看,大資料與雲端計算的關係就像一枚硬幣的正反面一樣密不可分。大資料必然無法用單臺的計算機進行處理,必須採用分散式架構。它的特色在於對海量資料進行分散式資料探勘。但它必須依託雲端計算的分散式處理、分散式資料庫和雲端儲存、虛擬化技術。[2]
隨著雲時代的來臨,大資料(Big data)也吸引了越來越多的關注。分析師團隊認為,大資料(Big data)通常用來形容一個公司創造的大量非結構化資料和半結構化資料,這些資料在下載到關係型資料庫用於分析時會花費過多時間和金錢。大資料分析常和雲端計算聯絡到一起,因為實時的大型資料集分析需要像MapReduce一樣的框架來向數十、數百或甚至數千的電腦分配工作。
大資料需要特殊的技術,以有效地處理大量的容忍經過時間內的資料。適用於大資料的技術,包括大規模並行處理(MPP)資料庫、資料探勘、分散式檔案系統、分散式資料庫、雲端計算平臺、網際網路和可擴充套件的儲存系統。
最小的基本單位是bit,按順序給出所有單位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。
它們按照進率1024(2的十次方)來計算:
1 Byte =8 bit
1 KB = 1,024 Bytes = 8192 bit
1 MB = 1,024 KB = 1,048,576 Bytes
1 GB = 1,024 MB = 1,048,576 KB
1 TB = 1,024 GB = 1,048,576 MB
1 PB = 1,024 TB = 1,048,576 GB
1 EB = 1,024 PB = 1,048,576 TB
1 ZB = 1,024 EB = 1,048,576 PB
1 YB = 1,024 ZB = 1,048,576 EB
1 BB = 1,024 YB = 1,048,576 ZB
1 NB = 1,024 BB = 1,048,576 YB
1 DB = 1,024 NB = 1,048,576 BB
全稱:
1 Bit(位元) =Binary Digit
8Bits = 1 Byte(位元組)
1,000 Bytes = 1 Kilobyte
1,000Kilobytes = 1 Megabyte
1,000 Megabytes = 1 Gigabyte
1,000 Gigabytes = 1Terabyte
1,000 Terabytes = 1 Petabyte
1,000 Petabytes = 1 Exabyte
1,000Exabytes = 1 Zettabyte
1,000 Zettabytes = 1 Yottabyte
1,000 Yottabytes = 1Brontobyte
1,000 Brontobytes = 1 Geopbyte[6]
特徵編輯
容量(Volume):資料的大小決定所考慮的資料的價值和潛在的資訊;[7]
種類(Variety):資料型別的多樣性;[7]
速度(Velocity):指獲得資料的速度;[7]
可變性(Variability):妨礙了處理和有效地管理資料的過程。[7]
真實性(Veracity):資料的質量[7]
複雜性(Complexity):資料量巨大,來源多渠道[7]
價值(value):合理運用大資料,以低成本創造高價值
結構編輯
大資料就是網際網路發展到現今階段的一種表象或特徵而已,沒有必要神話它或對它
保持敬畏之心,在以雲端計算為代表的技術創新大幕的襯托下,這些原本看起來很難收集和使用的資料開始容易被利用起來了,通過各行各業的不斷創新,大資料會逐步為人類創造更多的價值。[8]
其次,想要系統的認知大資料,必須要全面而細緻的分解它,我著手從三個層面來展開:
第一層面是理論,理論是認知的必經途徑,也是被廣泛認同和傳播的基線。在這裡從大資料的特徵定義理解行業對大資料的整體描繪和定性;從對大資料價值的探討來深入解析大資料的珍貴所在;洞悉大資料的發展趨勢;從大資料隱私這個特別而重要的視角審視人和資料之間的長久博弈。
第二層面是技術,技術是大資料價值體現的手段和前進的基石。在這裡分別從雲端計算、分散式處理技術、儲存技術和感知技術的發展來說明大資料從採集、處理、儲存到形成結果的整個過程。
第三層面是實踐,實踐是大資料的最終價值體現。在這裡分別從網際網路的大資料,政府的大資料,企業的大資料和個人的大資料四個方面來描繪大資料已經展現的美好景象及即將實現的藍圖。[8]
應用編輯
洛杉磯警察局和加利福尼亞大學合作利用大資料預測犯罪的發生。
google流感趨勢(Google Flu Trends)利用搜索關鍵詞預測禽流感的散佈。
統計學家內特.西爾弗(Nate Silver)利用大資料預測2012美國選舉結果。
麻省理工學院利用手機定位資料和交通資料建立城市規劃。
梅西百貨的實時定價機制。根據需求和庫存的情況,該公司基於SAS的系統對多達7300萬種貨品進行實時調價。[9]
醫療行業早就遇到了海量資料和非結構化資料的挑戰,而近年來很多國家都在積極推進醫療資訊化發展,這使得很多醫療機構有資金來做大資料分析。[10]
意義編輯
現在的社會是一個高速發展的社會,科技發達,資訊流通,人們之間的交流越來越密切,生活也越來越方便,大資料就是這個高科技時代的產物。[11] 阿里巴巴創辦人馬雲來臺演講中就提到,未來的時代將不是IT時代,而是DT的時代,DT就是Data Technology資料科技,顯示大資料對於阿里巴巴集團來說舉足輕重。[12]
有人把資料比喻為蘊藏能量的煤礦。煤炭按照性質有焦煤、無煙煤、肥煤、貧煤等分類,而露天煤礦、深山煤礦的挖掘成本又不一樣。與此類似,大資料並不在“大”,而在於“有用”。價值含量、挖掘成本比數量更為重要。對於很多行業而言,如何利用這些大規模資料是贏得競爭的關鍵。[13]
大資料的價值體現在以下幾個方面:
1)對大量消費者提供產品或服務的企業可以利用大資料進行精準營銷
2) 做小而美模式的中小微企業可以利用大資料做服務轉型
3) 面臨網際網路壓力之下必須轉型的傳統企業需要與時俱進充分利用大資料的價值
不過,“大資料”在經濟發展中的巨大意義並不代表其能取代一切對於社會問題的理性思考,科學發展的邏輯不能被湮沒在海量資料中。著名經濟學家路德維希·馮·米塞斯曾提醒過:“就今日言,有很多人忙碌於資料之無益累積,以致對問題之說明與解決,喪失了其對特殊的經濟意義的瞭解。”這確實是需要警惕的。
在這個快速發展的智慧硬體時代,困擾應用開發者的一個重要問題就是如何在功率、覆蓋範圍、傳輸速率和成本之間找到那個微妙的平衡點。企業組織利用相關資料和分析可以幫助它們降低成本、提高效率、開發新產品、做出更明智的業務決策等等。例如,通過結合大資料和高效能的分析,下面這些對企業有益的情況都可能會發生:
1)及時解析故障、問題和缺陷的根源,每年可能為企業節省數十億美元。
2)為成千上萬的快遞車輛規劃實時交通路線,躲避擁堵。
3)分析所有SKU,以利潤最大化為目標來定價和清理庫存。
4)根據客戶的購買習慣,為其推送他可能感興趣的優惠資訊。
5)從大量客戶中快速識別出金牌客戶。
6)使用點選流分析和資料探勘來規避欺詐行為。[14]
趨勢編輯
趨勢一:資料的資源化
何為資源化,是指大資料成為企業和社會關注的重要戰略資源,並已成為大家爭相搶奪的新焦點。因而,企業必須要提前制定大資料營銷戰略計劃,搶佔市場先機。
趨勢二:與雲端計算的深度結合
大資料離不開雲處理,雲處理為大資料提供了彈性可拓展的基礎裝置,是產生大資料的平臺之一。自2013年開始,大資料技術已開始和雲端計算技術緊密結合,預計未來兩者關係將更為密切。除此之外,物聯網、移動網際網路等新興計算形態,也將一齊助力大資料革命,讓大資料營銷發揮出更大的影響力。
趨勢三:科學理論的突破
隨著大資料的快速發展,就像計算機和網際網路一樣,大資料很有可能是新一輪的技術革命。隨之興起的資料探勘、機器學習和人工智慧等相關技術,可能會改變資料世界裡的很多演算法和基礎理論,實現科學技術上的突破。
趨勢四:資料科學和資料聯盟的成立
未來,資料科學將成為一門專門的學科,被越來越多的人所認知。各大高校將設立專門的資料科學類專業,也會催生一批與之相關的新的就業崗位。與此同時,基於資料這個基礎平臺,也將建立起跨領域的資料共享平臺,之後,資料共享將擴充套件到企業層面,並且成為未來產業的核心一環。
趨勢五:資料洩露氾濫
未來幾年資料洩露事件的增長率也許會達到100%,除非資料在其源頭就能夠得到安全保障。可以說,在未來,每個財富500強企業都會面臨資料攻擊,無論他們是否已經做好安全防範。而所有企業,無論規模大小,都需要重新審視今天的安全定義。在財富500強企業中,超過50%將會設定首席資訊保安官這一職位。企業需要從新的角度來確保自身以及客戶資料,所有資料在建立之初便需要獲得安全保障,而並非在資料儲存的最後一個環節,僅僅加強後者的安全措施已被證明於事無補。
趨勢六:資料管理成為核心競爭力
資料管理成為核心競爭力,直接影響財務表現。當“資料資產是企業核心資產”的概念深入人心之後,企業對於資料管理便有了更清晰的界定,將資料管理作為企業核心競爭力,持續發展,戰略性規劃與運用資料資產,成為企業資料管理的核心。資料資產管理效率與主營業務收入增長率、銷售收入增長率顯著正相關;此外,對於具有網際網路思維的企業而言,資料資產競爭力所佔比重為36.8%,資料資產的管理效果將直接影響企業的財務表現。
趨勢七:資料質量是BI(商業智慧)成功的關鍵
採用自助式商業智慧工具進行大資料處理的企業將會脫穎而出。其中要面臨的一個挑戰是,很多資料來源會帶來大量低質量資料。想要成功,企業需要理解原始資料與資料分析之間的差距,從而消除低質量資料並通過BI獲得更佳決策。
趨勢八:資料生態系統複合化程度加強
大資料的世界不只是一個單一的、巨大的計算機網路,而是一個由大量活動構件與多元參與者元素所構成的生態系統,終端裝置提供商、基礎設施提供商、網路服務提供商、網路接入服務提供商、資料服務使能者、資料服務提供商、觸點服務、資料服務零售商等等一系列的參與者共同構建的生態系統。而今,這樣一套資料生態系統的基本雛形已然形成,接下來的發展將趨向於系統內部角色的細分,也就是市場的細分;系統機制的調整,也就是商業模式的創新;系統結構的調整,也就是競爭環境的調整等等,從而使得資料生態系統複合化程度逐漸增強。[15]
大資料的IT分析工具編輯
大資料概念應用到IT操作工具產生的資料中,大資料可以使IT管理軟體供應商解決大廣泛的業務決策。IT系統、應用和技術基礎設施每天每秒都在產生資料。大資料非結構化或者結構資料都代表了‘所有使用者的行為、服務級別、安全、風險、欺詐行為等更多操作’的絕對記錄。
大資料分析的產生旨在於IT管理,企業可以將實時資料流分析和歷史相關資料相結合,然後大資料分析並發現它們所需的模型。反過來,幫助預測和預防未來執行中斷和效能問題。進一步來講,他們可以利用大資料瞭解使用模型以及地理趨勢,進而加深大資料對重要使用者的洞察力。 他們也可以追蹤和記錄網路行為,大資料輕鬆地識別業務影響;隨著對服務利用的深刻理解加快利潤增長;同時跨多系統收集資料發展IT服務目錄。
大資料分析的想法,尤其在IT操作方面,大資料對於我們發明並沒有什麼作用,但是我們一直在其中。Gartner已經關注這個話題很多年了,基本上他們已經強調,如果IT正在引進新鮮靈感,他們將會扔掉大資料老式方法開發一個新的IT操作分析平臺。[16]
國務院印發行動綱要 促進大資料加快發展編輯
經李克強總理籤批,2015年9月,國務院印發《促進大資料發展行動綱要》(以下簡稱《綱要》),系統部署大資料發展工作。
《綱要》明確,推動大資料發展和應用,在未來5至10年打造精準治理、多方協作的社會治理新模式,建立執行平穩、安全高效的經濟執行新機制,構建以人為本、惠及全民的民生服務新體系,開啟大眾創業、萬眾創新的創新驅動新格局,培育高階智慧、新興繁榮的產業發展新生態。
《綱要》部署三方面主要任務。一要加快政府資料開放共享,推動資源整合,提升治理能力。大力推動政府部門資料共享,穩步推動公共資料資源開放,統籌規劃大資料基礎設施建設,支援巨集觀調控科學化,推動政府治理精準化,推進商事服務便捷化,促進安全保障高效化,加快民生服務普惠化。二要推動產業創新發展,培育新興業態,助力經濟轉型。發展大資料在工業、新興產業、農業農村等行業領域應用,推動大資料發展與科研創新有機結合,推進基礎研究和核心技術攻關,形成大資料產品體系,完善大資料產業鏈。三要強化安全保障,提高管理水平,促進健康發展。健全大資料安全保障體系,強化安全支撐。[17]
2015年9月18日貴州省啟動我國首個大資料綜合試驗區的建設工作,力爭通過3至5年的努力,將貴州大資料綜合試驗區建設成為全國資料匯聚應用新高地、綜合治理示範區、產業發展聚集區、創業創新首選地、政策創新先行區。
圍繞這一目標,貴州省將重點構建“三大體系”,重點打造“七大平臺”,實施“十大工程”。
“三大體系”是指構建先行先試的政策法規體系、跨界融合的產業生態體系、防控一體的安全保障體系;“七大平臺”則是指打造大資料示範平臺、大資料集聚平臺、大資料應用平臺、大資料交易平臺、大資料金融服務平臺、大資料交流合作平臺和大資料創業創新平臺;“十大工程”即實施資料資源匯聚工程、政府資料共享開放工程、綜合治理示範提升工程、大資料便民惠民工程、大資料三大業態培育工程、傳統產業改造升級工程、資訊基礎設施提升工程、人才培養引進工程、大資料安全保障工程和大資料區域試點統籌發展工程。
此外,貴州省將計劃通過綜合試驗區建設,探索大資料應用的創新模式,培育大資料交易新的做法,開展資料交易的市場試點,鼓勵產業鏈上下游之間的資料交換,規範資料資源的交易行為,促進形成新的業態。
國家發展改革委有關專家表示,大資料綜合試驗區建設不是簡單的建產業園、建資料中心、建雲平臺等,而是要充分依託已有的設施資源,把現有的利用好,把新建的規劃好,避免造成空間資源的浪費和損失。探索大資料應用新的模式,圍繞有資料、用資料、管資料,開展先行先試,更好地服務國家大資料發展戰略。[18]