1. 程式人生 > >大資料概念以及特徵01

大資料概念以及特徵01

一.什麼是大資料?
      大資料(Big Data)是指“無法用現有的軟體工具提取、儲存、搜尋、共享、分析和處理的海量的、複雜的資料集合

二.大資料的特點
      業界通常用4個V(即Volume、Variety、Value、Velocity)來概括大資料的特徵。

這裡寫圖片描述

      一.是資料體量巨大(Volume)。
      截至目前,人類生產的所有印刷材料的資料量是200PB(1PB=210TB),而歷史上全人類說過的所有的話的資料量大約是5EB(1EB=210PB)。當前,典型個人計算機硬碟的容量為TB量級,而一些大企業的資料量已經接近EB量級。

      二.是資料型別繁多(Variety)。
      這種型別的多樣性也讓資料被分為結構化資料和非結構化資料。相對於以往便於儲存的以文字為主的結構化資料,非結構化資料越來越多,包括網路日誌、音訊、視訊、圖片、地理位置資訊等,這些多型別的資料對資料的處理能力提出了更高要求。

      三.是價值密度低(Value)。
      價值密度的高低與資料總量的大小成反比。以視訊為例,一部1小時的視訊,在連續不間斷的監控中,有用資料可能僅有一二秒。如何通過強大的機器演算法更迅速地完成資料的價值“提純”成為目前大資料背景下亟待解決的難題。

      四.是處理速度快(Velocity)。
      這是大資料區分於傳統資料探勘的最顯著特徵。根據IDC的“數字宇宙”的報告,預計到2020年,全球資料使用量將達到35.2ZB。在如此海量的資料面前,處理資料的效率就是企業的生命。