大數據筆記(一)——Hadoop的起源與背景知識
阿新 • • 發佈:2018-02-20
variety var city inf 成本 特征 找到 hbase span
一.大數據的5個特征(IBM提出):
Volume(大量)
Velocity(高速)
Variety(多樣)
Value(價值)
Varacity(真實性)
二.OLTP與OLAP
1.OLTP:聯機事務處理過程,也稱面向交易的處理過程,是對用戶操作快速響應的方式之一。OLTP是傳統的關系型數據庫的主要應用,主要是基本的、日常的事務處理,例如銀行交易:
開啟事務——>從轉出賬號中扣錢——>往轉入賬號中加錢——>提交事務
2.OLAP:聯機分析處理過程,是數據倉庫系統的主要應用,支持復雜的分析操作,側重決策支持,並且提供直觀易懂的查詢結果。例如商品推薦:
抽取(讀取)歷史訂單——>分析歷史訂單,找到最受歡迎的商品——>展示結果
3.OLTP和OLAP的區別:
OLTP | OLAP | |
用戶 | 操作人員 | 決策人員,高級管理人員 |
功能 | 日常操作處理 | 分析決策 |
DB設計 | 面向應用 | 面向主題 |
數據 | 當前的,最新的細節的,二維的分立的 | 歷史的,聚集的,多位的,集成的,統一的 |
存取 | 讀/寫數十條記錄 | 讀上百萬條記錄 |
工作單位 | 簡單的事務 | 復雜的事務 |
DB大小 | 100MB-GB | 100GB-TB |
三.數據倉庫
為企業所有級別的決策制定過程,提供所有類型數據支持的戰略集合。
四.Google的基本思想
Hadoop的思想來源:Google
1.Google的低成本之道
- 不使用超級計算機,不使用存儲(淘寶的去i,去e,去o之路)
- 大量使用普通的pc服務器,提供有冗余的集群服務
- 全世界多個數據中心
- 運營商向Google倒付費
2.Google的三篇論文(Hadoop的思想來源)
- GFS(Google File System:Google的文件系統)
- 倒排索引
把文件ID對應到關鍵詞的映射轉換為關鍵詞到文件ID的映射,每個關鍵詞都對應著一系列的文件,這些文件中都出現這個關鍵詞。
- Page Rank(排名先後)
- BigTable(大表):Google設計的分布式數據存儲系統,用來處理海量數據的一種
常見的NoSQL數據庫(Key-value值):
- HBase:基於HDFS,面向列的:region
- Redis:基於內存、支持持久化:rdb和aof
- MongoDB:面向文檔,Json型
大數據筆記(一)——Hadoop的起源與背景知識