1. 程式人生 > >大資料的理解,大資料是什麼,大資料能幹什麼?

大資料的理解,大資料是什麼,大資料能幹什麼?

一、概念:

· 一種規模大到在獲取、儲存、管理、分析方面大大超出了傳統資料庫軟體工具能力範圍的資料集合,具有海量的資料規模、快速的資料流轉、多樣的資料型別和價值密度低四大特徵。 大資料的本質就是一大堆結構化的和非結構化的資料。因為資料量太大,你沒辦法使用,你需要從中抓取出有價值的內容或你想要的資料,這就是大資料應用。 老程式都知道,我們做企業級的專案(資料庫專案)時,都會有資料的儲存,而且會做出很多圖表,為決策者進行科學地決策提供了客觀依據,為每個工作者從資料中發現問題,做進一步改進提供了依據,當然也有即時變動的資料展示位動態圖表。 1)、超市管理系統,也會把每年的資料進行彙總,對比每個月的銷量,以瞭解淡旺季,幫助做下一步的應對策略;把不同型別的商品進行彙總,對比哪個商品賣得多,哪個商品收益高;哪個商品在哪個時間段賣得快等等。當然,如果有會員的話,甚至可以統計出不同年齡段,不同性別的不同喜好等等。 2)、石油行業的進銷存系統,會統計哪個加油站的銷量好,哪種型號的銷量好。 3)、在HIS(醫院資訊管理)系統裡,會統計哪個科室的患者多,哪個醫生的掛號量大,哪個醫療裝置的使用頻度高,哪個病種多,甚至哪個年齡段得哪種型別病的數量多,甚至哪個地區的人患哪種病的概率高。在很多研究型醫院裡,還可以通過大量資料得出什麼型別的細菌是導致某種病的主因等等。 隨著時間的推移,資料的積累,隨著社會節奏的變化,使用資訊化系統的人越來越多,資料積累的速度越來越快,資料也越來越龐大。當規模大到在獲取資料,儲存資料,管理資料,分析資料方面大大超過了傳統資料庫軟體工具能力範圍的資料集合,並且資料的價值越來越大,針對資料的處理就需要專門的企業或者人員來完成,這就是現在大資料(當然,大資料的內涵遠遠不是這一兩句話能夠說清楚的)。 你可以簡單理解為:以前那是小資料,現在是大資料,哈哈! 從技術層面說,大資料和以前的資料時代("小資料")的最大差異在於: 以前是資料找應用、演算法的過程,偏重於用抽樣推測全域性,從抽樣資料中分析,沒有采集到的樣本所對應的相關規律。 而大資料時代的重要技術特徵之一,是應用、演算法去找資料的過程,因為資料規模變成了技術上最大的挑戰,我們更關注每一個個體的微觀表現


二、應用場景舉例:

應用場景能夠體現出大資料的價值 我的部落格中也有一些關於大資料應用場景的故事: https://blog.csdn.net/jiang7701037/article/details/81041692 1)、超市管理系統: 除了傳統的資料彙總對比外,現在還需要對資料做進一步的挖掘,如:根據大量的資料能夠的得出(啤酒與尿布的故事)買了某種商品的人同時還會買另外一種商品,這樣超市就會盡量把這兩種商品的擺放位置靠近,以方便客戶進行購買(這是為了商場商品擺放提供了依據) 電子商務平臺上更是對資料的彙總更加有說服力,比如:淘寶,這個平臺“太可怕”了,他可以統計出南北方地區不同省份人群的特點,比如:不同省份人員的網購量,哪個性別,哪個年齡段購買最多,甚至根據衣服的尺碼都知道哪個省份人員的身高情況,那個人省份人員喜歡什麼顏色的衣服,噢,還有內衣,根據內衣,你都知道哪個省份女性的罩杯大小…… 你在京東買了奶瓶又搜尋過奶粉,那京東的大資料就預測到你可能有小寶寶了,接下來一大堆和嬰兒有關的東西都推薦給你。你可能說這就是大資料啊,也太簡單了。其實如果京東僅服務你一個人,那簡單,但是京東對幾億使用者(大資料)都能做這個推廣,就不簡單。 這是商業公司對消費者日常的購買行為和使用商品習慣進行彙總和分析,瞭解到消費者的需求,從而改進已有商品並適時推出新的、消費者很可能會滿意的商品的體現 2)、石油行業的進銷存系統,著名的“魔鏡”預知石油市場走向,“魔鏡”幫助中石等企業分析資料,將資料視覺化,使企業科學的判斷、決策,節約成本,合理配置資源,提高了收益。 3)、在HIS(醫院資訊管理)系統裡特別是醫學研究上。 大資料改變醫學診斷手段 大資料分析為許多醫學難題的解決提供了新途徑,改變了一些疾病診斷方式。大資料可以挖掘出大量以往的相似疾病案例,通過分析這些診斷資料,對疑難雜症進行快速判別。如,在心臟病的診斷過程中,首先採集心臟資料並轉化為心臟圖譜,然後根據圖譜進行建模,模型中的變數包括壓力、張力、僵硬度等,最後根據這個模型分析心臟疾病病情,並作出相應的診療方案。此外,還可以利用影象處理技術,將心臟資料建模成為一個虛擬實體,通過設定不同的引數,模擬觀察各類手術或者藥物對心臟機能造成的影響,從而在診療之前就對診療後心髒疾病可能的走勢做出預測,為獲取疾病診治方法提供了手段。 大資料可預測病情的擴散趨勢 當流行病發生時,可以對疾病已有的擴散趨勢和感染人數進行建模,對每一個時間節點的資料進行分析處理,從而對流行病進行統計研究,預測病情的擴散趨勢,為疾病防治提供參考。同時,當下一次疫情發生時,可以調出往年資料進行分析,瞭解規律,從而有望抑制病情的進一步擴張。 …… 疾病預防、臨床應用、網際網路醫療等等 4)、做搜尋引擎的百度和谷歌更是可怕,他儲存著所有網際網路使用者搜尋的關鍵詞。使用者搜尋的關鍵詞就代表著他所關心的話題,如:最近搜尋it的培訓的比較多,說明了什麼,最近搜尋web前端培訓的比較多說明了什麼,最近搜尋如何預防流感,得了流感怎麼辦,怎麼才能知道自己得了流感等等,這說明了流感的季節到來,擔心的流感的人很多,還有可能得到的流感的人數佔比和速度…… 5)、交通: 實時路況給人們出行選擇帶來的方便。交通擁堵的原因分析,並結合車輛購買的增長情況,決定修路的節奏把握(如:什麼路段需要修路,什麼路段需要優先修路,要不要單行等等),根據大資料的全樣本體現的高峰期更有說服力,並制定一系列的對策等等。


三、大資料能做什麼?

預測,決策,為機器學習和人工智慧提供支撐 預測從古代就做了,但是大資料做預測的核心是全樣本,多個維度的全樣本,交叉確認,人會說謊,在社交場合會隱藏部分內心,但這部分內心在日積月累的網際網路上總有絲竹馬跡會留下來,所以,越來越多的資料模型和資料會給出無限接近感知的結果。也就是可以讓計算機具有學習能力,機器學習就是設計一個一些讓計算機可以自動學習的演算法,人工智慧的核心是什麼?歸根到底是“計算機用大資料在代替人腦來思考;計算機可能比人腦思考的更全面和迅速 當然大資料的應用,不是一篇文章,簡單舉個例子就能說明白的,現在是資料為王的時代,我們現在才真正開始體會“資料最有說服力"的魅力所在,我認為,資料的作用待開發的地方太多了,資料的作用,未來不可限量,沒法預測,也不敢預測,只能期待。我想未來大量的資料真的是一件“可怕”的事情,人類還需要把這些資料應用在生產上,否則,會帶來災難性的結果。

相關推薦

頁面訪問伺服器返回json格式資料導致資料不全被截斷無法展示

問題:頁面展示呼叫查詢方法查詢全部資料的時候一直顯示loading。。。,開啟偵錯程式顯示 Failed to load resource: net::ERR_SPDY_PROTOCOL_ERROR,而少部分查詢則正常顯示。 因為資料中有圖片轉成的二進位制陣列,資料比較長,由此懷疑

一篇對資料深度思考的文章讓你認識並讀懂資料

  在寫這篇文章之前,筆者發現身邊很多IT人對於這些熱門的新技術、新趨勢往往趨之若鶩卻又很難說的透徹,如果你問他大資料和你有什麼關係?估計很少能說出一二三來。究其原因,一是因為大家對新技術有著相同的原始渴求,至少知其然在聊天時不會顯得很“土鱉”;二是在工作和生活環境中真正能參與實踐大資料的案例實在太

資料學習路線是什麼小白如何學資料

大資料這個話題熱度一直高居不下,不僅是國家政策的扶持,也是科技順應時代的發展。想要學習大資料,我們該怎麼做呢?大資料學習路線是什麼?先帶大家瞭解一下大資料的特徵以及發展方向。 大資料的三個發展方向,平臺搭建/優化/運維/監控、大資料開發/設計/架構、資料分析/挖掘。 大資料學習群142

資料敲門磚想入行資料必須學習這些知識

基礎概念 大資料的本質 一、資料的儲存:分散式檔案系統(分散式儲存) 二、資料的計算:分部署計算 基礎知識 學習大資料需要具備Java知識基礎及Linux知識基礎 學習路線 大資料學習群142973723 (1)Java基礎和Linux基礎 (2)Hadoop的學

消防隱患同比下降約60%基於物聯網資料的智慧消防水系統遠端監測方案

近十年全國共發生高層建築火災3.1萬起,死亡474人,直接財產損失15.6億元。其中,特別重大火災3起、重大火災4起、較大火災24起,形勢非常嚴峻。消防給水系統完善與否直接影響火災撲救的效果,據火災統計,在撲救成功的火災案例中,93%的火場消防給水條件較好,水量、水壓有保障;而在撲救失利的火災案例中,81.5

資料之Spark(四)--- Dependency依賴啟動模式shuffleRDD持久化變數傳遞共享變數分散式計算PI的值

一、Dependency:依賴:RDD分割槽之間的依存關係 --------------------------------------------------------- 1.NarrowDependency: 子RDD的每個分割槽依賴於父RDD的少量分割槽。 |

資料之Spark(三)--- Spark核心APISpark術語Spark三級排程流程原始碼分析

一、Spark核心API ----------------------------------------------- [SparkContext] 連線到spark叢集,入口點. [HadoopRDD] extends RDD 讀取hadoop

資料之Spark(二)--- RDDRDD變換RDD的Action解決spark的資料傾斜問題spark整合hadoop的HA

一、Spark叢集執行 ------------------------------------------------------- 1.local //本地模式 2.standalone //獨立模式 3.yarn //yarn模式

資料之Spark(一)--- Spark簡介模組安裝使用一句話實現WorldCountAPIscala程式設計提交作業到spark叢集指令碼分析

一、Spark簡介 ---------------------------------------------------------- 1.快如閃電的叢集計算 2.大規模快速通用的計算引擎 3.速度: 比hadoop 100x,磁碟計算快10x 4.使用: java

資料之scala(四) --- 模式匹配變數宣告模式樣例類偏函式泛型型變逆變隱式轉換隱式引數

一、模式匹配:當滿足case條件,就終止 ---------------------------------------------------------- 1.更好的switch var x = '9'; x match{ case

資料之scala(三) --- 類的檢查、轉換、繼承檔案特質trait操作符applyupdateunapply高階函式柯里化控制抽象集合

一、類的檢查和轉換 -------------------------------------------------------- 1.類的檢查 isInstanceOf -- 包括子類 if( p.isInstanceOf[Employee]) {

資料之scala(二) --- 對映元組簡單類內部類物件ObjectIdea中安裝scala外掛trait特質[介面]包和包的匯入

一、對映<Map> ----------------------------------------------------- 1.建立一個不可變的對映Map<k,v> ==> Map(k -> v) scala> val map

資料之scala(一) --- 安裝scala簡單語法介紹條件表示式輸入和輸出迴圈函式過程lazy 異常陣列

一、安裝和執行Scala解釋程式 --------------------------------------------- 1.下載scala-2.11.7.msi 2.管理員執行--安裝 3.進入scala/bin,找到scala.bat,管理員執行,進入scala命

38套資料雲端計算架構資料分析師HadoopSparkStormKafka人工智慧機器學習深度學習專案實戰視訊教程

38套大資料,雲端計算,架構,資料分析師,Hadoop,Spark,Storm,Kafka,人工智慧,機器學習,深度學習,專案實戰視訊教程 視訊課程包含: 38套大資料和人工智慧高階課包含:大資料,雲端計算,架構,資料探勘實戰,實時推薦系統實戰,電視收視率專案實戰,實時流統計專案實戰,離線電

從鍵盤輸入三個整數a、b、c要求將輸出的資料按從到小排序後輸出。

#include<stdio.h> int main() { int a,b,c,t; scanf("%d%d%d",&a,&b,&c); if(a>b) { t=a; a=b; b=t; } if(a>c) { t=a; a=c; c=t

文科生轉行資料分析分享我的資料培訓經歷

以下文章轉載自一位培訓資料分析小夥伴的分享。對於很多想轉行學習大資料技術,參加大資料培訓的小夥伴們,可以參考參考  很多人不敢承認自己是培訓出來的,我今天來簡單講講我參加資料分析培訓的經理,大家有什麼疑問的可以留言交流。我目前在四川一家大型移動運營商省公司做資料分析崗位,薪資6K

建立資料業務的全域性觀瞭解資料專案上下游

很多大資料的從業者,都清楚的知道,在大資料公司裡,或者是大資料的專案裡,都設有獨立的資料部門,而且如果部門內的的人員規模足夠大的話,還會進一步考慮劃分成幾個小組,比如BI、大資料、資料產品和UED,甚至還可能會有資料探勘組、爬蟲組。大家各盡其責,在自己的崗位上相互獨立的去工作,雖然經常會遇到「資料專

劍指offer系列——二叉搜尋樹的第k個結點資料流的中位數滑動視窗的最

二叉搜尋樹的第k個結點 題目描述 給定一棵二叉搜尋樹,請找出其中的第k小的結點。例如, (5,3,7,2,4,6,8)    中,按結點數值大小順序第三小結點的值為4。 解題思路: 二叉搜尋樹中序遍歷就能排好序,所以中序遍歷到第k個結點就是第k小的結點。 程式

Hadoop學習筆記—4.初識MapReduce 一、神馬是高大上的MapReduce   MapReduce是Google的一項重要技術它首先是一個程式設計模型用以進行資料量的計算。對於資料

Hadoop學習筆記—4.初識MapReduce 一、神馬是高大上的MapReduce   MapReduce是Google的一項重要技術,它首先是一個程式設計模型,用以進行大資料量的計算。對於大資料量的計算,通常採用的處理手法就是平行計算。但對許多開發

資料技術怎麼開始學習在學習資料之前需要具備什麼基礎?

未來5年大資料行業呈井噴趨勢,人才需求火爆,2018年大資料人才缺口更是高達900萬。以後想要做大資料相關的工作,需要學習哪些技術知識? 羅馬不是一天建成的,大資料工程師也不是短時間能鍛造的。想要成為大資料開發工程師,也要看你是否骨骼驚奇,天賦過人!在學習大資料之前,你還需要有一定的基礎!