1. 程式人生 > >大數據筆記(一)——Hadoop的起源與背景知識

大數據筆記(一)——Hadoop的起源與背景知識

variety var city inf 成本 特征 找到 hbase span

一.大數據的5個特征(IBM提出):

  Volume(大量)

  Velocity(高速)

  Variety(多樣)

  Value(價值)

  Varacity(真實性)

二.OLTP與OLAP

 1.OLTP:聯機事務處理過程,也稱面向交易的處理過程,是對用戶操作快速響應的方式之一。OLTP是傳統的關系型數據庫的主要應用,主要是基本的、日常的事務處理,例如銀行交易:

     開啟事務——>從轉出賬號中扣錢——>往轉入賬號中加錢——>提交事務

 2.OLAP:聯機分析處理過程,是數據倉庫系統的主要應用,支持復雜的分析操作,側重決策支持,並且提供直觀易懂的查詢結果。例如商品推薦:

     抽取(讀取)歷史訂單——>分析歷史訂單,找到最受歡迎的商品——>展示結果

 3.OLTP和OLAP的區別:

OLTP OLAP
用戶 操作人員 決策人員,高級管理人員
功能 日常操作處理 分析決策
DB設計 面向應用 面向主題
數據 當前的,最新的細節的,二維的分立的 歷史的,聚集的,多位的,集成的,統一的
存取 讀/寫數十條記錄 讀上百萬條記錄
工作單位 簡單的事務 復雜的事務
DB大小 100MB-GB 100GB-TB

三.數據倉庫

  為企業所有級別的決策制定過程,提供所有類型數據支持的戰略集合。

  技術分享圖片

四.Google的基本思想

  Hadoop的思想來源:Google

1.Google的低成本之道

  • 不使用超級計算機,不使用存儲(淘寶的去i,去e,去o之路)
  • 大量使用普通的pc服務器,提供有冗余的集群服務
  • 全世界多個數據中心
  • 運營商向Google倒付費

  技術分享圖片

2.Google的三篇論文(Hadoop的思想來源)

  • GFS(Google File System:Google的文件系統)

  技術分享圖片

  • 倒排索引

  把文件ID對應到關鍵詞的映射轉換為關鍵詞到文件ID的映射,每個關鍵詞都對應著一系列的文件,這些文件中都出現這個關鍵詞。

  技術分享圖片

  • Page Rank(排名先後)
  • BigTable(大表):Google設計的分布式數據存儲系統,用來處理海量數據的一種
    非關系型數據庫

  常見的NoSQL數據庫(Key-value值):

  • HBase:基於HDFS,面向列的:region
  • Redis:基於內存、支持持久化:rdb和aof
  • MongoDB:面向文檔,Json型

    

大數據筆記(一)——Hadoop的起源與背景知識