學習hadoop——第1篇

阿新 • • 發佈：2019-01-08

正式從資料庫往大資料，沖沖衝！！！

先把整體框架以及整體思路建立，好理解

Hadoop的思想之源：Google

Google搜尋引擎，Gmail，安卓，AppspotGoogle Maps，Google earth，Google 學術，Google翻譯，Google+，

下一步Google what？？

 不使用超級計算機，不使用儲存（淘寶的去i，去e，去o之路） 

大量使用普通的pc伺服器（去掉機箱，外設，硬碟），提供有冗餘的叢集服務 

全世界多個數據中心，有些附帶發電廠 

運營商向Google倒付費

Google面對的資料和計算難題

大量的網頁怎麼儲存？ 

搜尋演算法 

Page-Rank計算問題

倒排索引

Page Rank ：

這是Google最核心的演算法，用於給每個網頁價值評分，是Google“在垃圾中找黃金 ”的關鍵演算法，這個演算法成就了今天的Google

Map-reduce思想：計算PR

Google帶給我們的關鍵技術和思想

GFS 

Map-Reduce 

Bigtable

Hadoop的源起——Lucene

Doug Cutting開創的開源軟體，用java書寫程式碼，實現與Google類似的全文搜尋功能，它提供了全文檢索引擎的架構，包括完整的查詢引

擎和索引引擎

早期釋出在個人網站和SourceForge，2001年年底成為apache軟體基金會jakarta的一個子專案

Lucene的目的是為軟體開發人員提供一個簡單易用的工具包，以方便的在目標系統中實現全文檢索的功能，或者是以此為基礎建立起完整

的全文檢索引擎

對於大數量的場景，Lucene面對與Google同樣的困難。迫使Doug Cutting學習和模仿Google解決這些問題的辦法

一個微縮版：Nutch

目前Hadoop達到的高度

實現雲端計算的事實標準開源軟體

包含數十個具有強大生命力的子專案

已經能在數千節點上執行，處理資料量和排序時間不斷打破世界紀錄

Hadoop元件

Hadoop的架構

Namenode 名稱節點

Secondary Namenode 輔助名稱節點

DataNode 資料節點

JobTracker 作業跟蹤

程式和資料在同一物理節點上

TaskTracker 任務跟蹤

Master與Slave

資料分析者面臨的問題

 資料日趨龐大，無論是入庫和查詢，都出現效能瓶頸

使用者的應用和分析結果呈整合趨勢，對實時性和響應時間要求越來越高 

使用的模型越來越複雜，計算量指數級上升

Hadoop的思想

用更多的小型元件來代替大型元件，並且開源

Hadoop體系下的分析手段

主流：Java程式 

輕量級的指令碼語言：Pig 

SQL技巧平穩過渡：Hive 

NoSQL：HBase

學習hadoop——第1篇

正式從資料庫往大資料，沖沖衝！！！先把整體框架以及整體思路建立，好理解 Hadoop的思想之源：Google Google搜尋引擎，Gmail，安卓，AppspotGoogle Maps，Google earth，Google 學術，Google翻譯，Google+，

金字塔原理學習筆記第1篇-表達的邏輯（二）

金字塔內部的結構文章中的思想應組成單一思想統領下的金字塔結構，如下圖所示：圖1 這樣的文章總是自金字塔的頂端開始，自上而下地沿著各個分支將作者的思想逐一呈現。但大多數人在準備坐下來開始寫

嵌入式C語言學習系列第1篇---微控制器按鍵消抖操作

基本思想就是監測，延時，監測。。。，放進迴圈中可進行掃描式操作/** * 函式功能: 讀取按鍵KEY1的狀態 * 輸入引數：無 * 返回值: KEY_DOWN：按鍵被按下； *

學習hadoop——第2篇

1.Hadoop 的產生與發展在大資料時代，資料面臨著爆炸式的增長，據IDC公司統計2013年，全球產生3.5ZB的資料，預計到2020年，這個資料將超過10 倍增長，1ZB等於10億TB，大資料的價值在於挖掘，挖掘就是分析，但是如何儲存和分析這些資料

mysql學習【第1篇】：初始MySQL

mysql學習【第1篇】：初始MySQL 為什麼學習資料庫只會寫程式碼的是碼農；學好資料庫，基本能混口飯吃；在此基礎上再學好作業系統和計算機網路，就能當一個不錯的程式設計師。如果能再把離散數學、數位電路、體系結構、資料結構/演算法、編譯原理學通透，再加上豐富的實踐經驗與領域特定知識，就能算是一個優

RESTful API 學習【第1篇】

param evel ref 獲得 params edi 集合 sort 客戶一. 什麽是RESTful REST與技術無關，代表的是一種軟件架構風格，REST是Representational State Transfer的簡稱，中文翻譯為“表征狀態轉移” REST

第1篇 java 8 流的學習----篩選和切片

篩選、切片和匹配  查詢、匹配和歸約  使用數值範圍等數值流  從多個源建立流  無限流 /** * 篩選和切片 */ public class Demo01 { public static void main(String[] args) { List&l

HTML5學習第1篇——簡介

HTML5學習第一篇 HTML5簡介定義設計目的優缺點優點缺點新特性瀏覽器支援 HTML5簡介定義 HTML5是HTML最新的修訂版

Python學習【第20篇】：互斥鎖以及程序之間的三種通訊方式（IPC）以及生產者個消費者模型 python併發程式設計之多程序1-----------互斥鎖與程序間的通訊

python併發程式設計之多程序1-----------互斥鎖與程序間的通訊一、互斥鎖程序之間資料隔離，但是共享一套檔案系統，因而可以通過檔案來實現程序直接的通訊，

Python學習【第23篇】：利用threading模組開執行緒 python併發程式設計之多執行緒1

python併發程式設計之多執行緒1 一多執行緒的概念介紹 threading模組介紹 threading模組和multiprocessing模組在使用層

李巨集毅《機器學習（2017版）》課程筆記及心得第1篇——Introduction of ML

1.首先，機器學習是什麼？機器學習，就是“根據所給資料，尋找一個函式，給出適當輸出”。通過這個函式，我們可以給它一個輸入，得到理想的、正確的輸出。我們通常需要給它資料，訓練一個機器的學習能力。例如：Speech Recognition就是我們給它一段音訊，它給我們識別，輸出這

(Oracle)零基礎學習SQL語句--第1篇

《這一輩子只活三個字》有一天我告訴了你這個祕密，天知地知你知我知的祕密在學習SQL(結構化查詢語言(Structured Query Language)簡稱SQL,是一種特殊的程式語言，是一種資料庫查詢和程式設計語言)之前我們一起來認識一下什麼是表結構，此時此刻你不用

Python 學習日記第六篇 -- 深淺拷貝

python深淺拷貝： 1、字符串和數字import copy #淺拷貝 copy.copy() #深拷貝 copy.deepcopy() #################################################################################

python學習【第三篇】基本數據類型

ini ati 絕對值 ef6 ict trunc any 替換不包含 Number(數字) int（整型）　　在32位機器上，整數的位數為32位，取值範圍為-2**31～2**31-1，即-2147483648～2147483647　　在64位系統上，整數的位數為6

R學習筆記第四篇：函數，分支和循環

匿名操作數 play 控制 als layers null 操作 str 變量用於臨時存儲數據，而函數用於操作數據，實現代碼的重復使用。在R中，函數只是另一種數據類型的變量，可以被分配，操作，甚至把函數作為參數傳遞給其他函數。分支控制和循環控制，和通用編程語言的風格很相似

輕松學習 JavaScript——第 1 部分：了解 let 語句

enc bbb 你會 rip view 應用 cti gist 變量提升使用let語句，允許你在JavaScript中創建塊範圍局部變量。let語句是在JavaScript的ECMAScript 6標準中引入的。在你往下了解let語句之前，我建議你先查看基於Infrag

Django學習筆記第五篇--實戰練習一--查詢數據庫並操作cookie

settings sin -h update out backend uitable -s ror 一、啟動項目： 1 django-admin start mysite1 2 cd mysite1 3 python manage.py startapp loginapp

Django學習筆記第八篇--實戰練習四--為你的視圖函數自定義裝飾器

ons one ces app1 pos print 事情 res 需要零、背景：對於登錄後面所有視圖函數，都需要驗證登錄信息，一般而言就是驗證cookie裏面的一些信息。所以你可以這麽寫函數： 1 def personinfo(request): 2 if

MySQL數據庫學習【第三篇】增刪改查操作

自增id 命令位置參數 modify 刪除一行 style 主鍵客戶端 drop 註意：1.如果你在cmd中書命令的時候，輸入錯了就用\c跳出 2.\s查看配置信息一、操作文件夾（庫）增：create database db1 charset utf8;

MySQL數據庫學習【第五篇】完整性約束

png 唯一約束 not null 會話 glob -- delet 初始 -a 一、介紹約束條件與數據類型的寬度一樣，都是可選參數作用：用於保證數據的完整性和一致性主要分為： PRIMARY KEY (PK) 標識該字段為該表的主鍵，可以唯一的標識記錄 FO

學習hadoop——第1篇

Hadoop的思想之源：Google

倒排索引

Page Rank ：

Map-reduce思想：計算PR

Google帶給我們的關鍵技術和思想

Hadoop的源起——Lucene

目前Hadoop達到的高度

Hadoop元件

Hadoop的架構

Namenode 名稱節點

Secondary Namenode 輔助名稱節點

DataNode 資料節點

JobTracker 作業跟蹤

TaskTracker 任務跟蹤

Master與Slave

資料分析者面臨的問題

Hadoop的思想

相關推薦