大數據學習第一章
備註:從現在開始直到10月份我們要參加省級大數據比賽,在此我會把這期間學習的東西都會在此記錄下來,加油吧!!!
1、因為大數據是在Linux系統上運行的,我們有兩種選擇,下面貼一篇博客
http://dblab.xmu.edu.cn/blog/285/ 這是慕課網上廈門大學林子雨老師講的一些基本的安裝過程
Linux系統建議使用Ubuntu,下面配上下載地址
ubuntu官方網站: http://www.ubuntu.com/ 對應 中文地址為 http://www.ubuntu.org.cn/index_kylin
桌面版下載地址: http://www.ubuntu.com/download/desktop
當然也可以完全按照林子雨老師博客裏面進行安裝,
2、下面貼一些Linux常用的一些命令(下面命令來源於http://www.cnblogs.com/resn/p/5800922.html 可自行參考)
軟件管理:
apt-cache search package 搜索包 apt-cache show package 獲取包的相關信息,如說明、大小、版本等 sudo apt-get install package 安裝包 sudo apt-get install package –reinstall 重新安裝包 sudo apt-get -f install 強制安裝 sudo apt-get remove package 刪除包 sudo apt-get remove package –purge 刪除包,包括刪除配置文件等 sudo apt-get autoremove 自動刪除不需要的包 sudo apt-get update 更新源 sudo apt-get upgrade 更新已安裝的包 sudo apt-get dist-upgrade 升級系統 sudo apt-get dselect-upgrade 使用 dselect 升級 apt-cache depends package 了解使用依賴 apt-cache rdepends package 了解某個具體的依賴 sudo apt-get build-dep package 安裝相關的編譯環境 apt-get source package 下載該包的源代碼 sudo apt-get clean && sudo apt-get autoclean 清理下載文件的存檔 sudo apt-get check 檢查是否有損壞的依賴
apt的配置文件:
/etc/apt/sources.list 設置軟件包的獲取來源 /etc/apt/apt.conf apt配置文件 /etc/apt/apt.conf.d apt的零碎配置文件 /etc/apt/preferences 版本參數 /var/cache/apt/archives/partial 存放正在下載的軟件包 /var/cache/apt/archives 存放已經下載的軟件包 /var/lib/apt/lists 存放已經下載的軟件包詳細信息 /var/lib/apt/lists/partial 存放正在下載的軟件包詳細信息
修改密碼:
# 修改密碼的命令 passwd # 默認修改當前用戶的密碼 passwd username # 修改指定用戶的密碼,需要管理員權限
備註:權限不夠時需要加sudo 獲取管理員權限
忘記密碼
開始時長按shift鍵,進入grub菜單--> 按字母e 進入編輯模式 --> 編輯內容--> 啟動 進入但用戶模式 ,重新設置用戶密碼,--> 按照F10重啟 -- > 使用新密碼進入系統
關機/重啟/註銷:
logout # 註銷
reboot # 重啟系統:
shutdown # 關機:
shutdown -r now # 現在立即重啟 shutdown -r +5 # 三分鐘後重啟 shutdown -r 12:12 #在12:12時將重啟計算機 shutdown -h now # 現在立即關機 shutdown -h +5 “The System will shutdown after 3 minutes” # 提示使用者將在三分鐘後關機 shutdown -h +5 # 5分鐘後關機 shutdown -h 12:00 # 12點鐘關機 shutdown -c # 取消關機操作
目錄切換:
cd # 回到當前用戶的家目錄 # ~ 可用於表示用戶家目錄 cd /etc # 切換到/etc目錄
cd - # 切換到上一次的目錄
pwd 查看當前的工作路徑
創建目錄:
mkdir my_dir創建目錄
mkdir a/b/c/d創建多層目錄
獲取幫助:
-h --help info man
man man # 查看man命令的手冊 man cd man pwd man 5 passwd man -k passwd # 模糊查找 man -f passwd # 精確查找
創建文件:
touch :改變文件或目錄時間,文件不存在時會創建一個空文件
touch filel # filel 不存在時被創建
touch -c filel #不創建文件
touch -r ref_file file1 更新file1.txt的時間戳和ref+file相同 touch -t 201210120505.25 file1
刪除:
rm
rm -f file1 # 強制刪除文件 rm -r a/b/file1 # 刪除指定目錄及其下的所有文件和目錄 rm -rf a/b/file1 # 強制刪除指定目錄及其下的所有文件和目錄 # rm 命令太危險,不建議使用
mv:移動或重命名文件或目錄
mv SOURCE DEST # mv test.log test.txt # 文件改名 mv test1.txt dir1/ #移動文件 mv test1.txt test2.tx test3.tx dir1/ #移動多個文件
cp :復制
cp SOURCE DEST 復制文件
cp -i SOURCE DEST # 如果遇到需要覆蓋的情況,則提示 cp -r dir1 dir2 # 若給出的源文件是一目錄文件,此時cp將遞歸復制該目錄下所有的子目錄和文件。此時目標文件必須為一個目錄名 cp -p file1 file2 # 此時cp除復制源文件的內容外,還將把其修改時間和訪問權限也復制到新文件中。
cp -rp dir1 dir2
star:查看文件詳細信息:
stat filename
car:鏈接文件後輸出文件內容到屏幕上,其實就是查看文件內容
cat file1 #顯示 file1的文件內容 cat file1 file2 # 顯示file1和file2的文件內容 cat -n file1 # 由1開始對所有輸出的行數編號 cat -s file # 當遇到連續2行以上的空白行,只保留一行空白行
history : 查看執行過的命令。
history # 顯示最近1000條歷史命令 history 5 # 顯示最後5條命令 !number# number為history之後命令前的序號:執行該條命令 !cat # 執行最後一條以cat開頭的命令
more : 查看文件內容
less : 查看文件內容
head : 輸出文件的開始的部分, 可以指定行數 , 默認顯示10行
ls : 列出目標目錄中所有的子目錄和文件
格式:ls [選項] [目錄名]
-a 用於顯示所有文件和子目錄(保羅點文件)。
-l 除了文件名之外,還將文件的權限、所有者、文件大小等信息詳細列出來。
-r 將目錄的內容清單以英文字母順序的逆序顯示。
-t 按文件修改時間進行排序,而不是按文件名進行排序。
-A 同-a,但不列出“.”(表示當前目錄)和“..”(表示當前目錄的父目錄)。
-F 在列出的文件名和目錄名後添加標誌。例如,在可執行文件後添加“*”,在目錄名後添加“/”以區分不同的類型。
-R 如果目標目錄及其子目錄中有文件,就列出所有的文件。
. 和..
. 表示當前目錄
.. 表示父目錄
ls # 列出當前目錄下的文件和目錄 ls . # 列出當前目錄下的文件和目錄 ls .. # 列出當前目錄的父目錄下的文件和目錄 ls /etc # 列出/etc目錄下的文件和目錄 ls -l # 以長格式顯示文件信息 總用量 76 -rwxrwxrwx 1 will will 78 5月 13 18:11 ss_start.sh
文件類型
- 普通文件
d 目錄文件
b 塊設備文件
c 字符設備文件
l 鏈接文件
p 管道文件
s socket文件
文件權限
rwxrwxr-- : 三組rwx 分別表示 所有者、所有組、其他人 的權限。
r : 表示可讀, 可以用數字 4 來表示
w : 標識可寫 ,可以用數字 2 來表示
x : 表示可執行 , 可以用數字 1 來表示
- :表示沒有相應權限 可以用數字 0 來表示
useradd: 添加用戶
# -c 備註 加上備註。並會將此備註文字加在/etc/passwd中的第5項字段中 # -d 用戶主文件夾。指定用戶登錄所進入的目錄,並賦予用戶對該目錄的的完全控制權 # -e 有效期限。指定帳號的有效期限。格式為YYYY-MM-DD,將存儲在/etc/shadow # -f 緩沖天數。限定密碼過期後多少天,將該用戶帳號停用 # -g 主要組。設置用戶所屬的主要組 www.cit.cn # -G 次要組。設置用戶所屬的次要組,可設置多組 # -M 強制不創建用戶主文件夾 # -m 強制建立用戶主文件夾,並將/etc/skel/當中的文件復制到用戶的根目錄下 # -p 密碼。輸入該帳號的密碼 # -s shell。用戶登錄所使用的shell # -u uid。指定帳號的標誌符user id,簡稱uid useradd user1 # 添加用戶 user1 useradd -d /home/userTT user2
userdel : 刪除用戶
userdel user1 # userdel -r user1 # -r, --remove 用戶主目錄中的文件將隨用戶主目錄和用戶郵箱一起刪除。在其它文件系統中的文件必須手動搜索並刪除。 # -f, --force 此選項強制刪除用戶賬戶,甚至用戶仍然在登錄狀態。它也強制刪除用戶的主目錄和郵箱,即使其它用戶也使用同一個主目錄或郵箱不屬於指定的用戶
usermod : 修改用戶信息
# -c<備註> 修改用戶帳號的備註文字。 # -d登入目錄> 修改用戶登入時的目錄。 # -e<有效期限> 修改帳號的有效期限。 # -f<緩沖天數> 修改在密碼過期後多少天即關閉該帳號。 # -g<群組> 修改用戶所屬的群組。 # -G<群組> 修改用戶所屬的附加群組。 # -l<帳號名稱> 修改用戶帳號名稱。 # -L 鎖定用戶密碼,使密碼無效。 # -s<shell> 修改用戶登入後所使用的shell。 # -u<uid> 修改用戶ID。
# -U 解除密碼鎖定。 usermod -G staff user2 # 將 newuser2 添加到組 staff 中 usermod -l newuser1 newuser # 修改 newuser 的用戶名為 newuser1 usermod -L newuser1 # 鎖定賬號 newuser1 usermod -U newuser1 # 解除對 newuser1 的鎖定
su : 切換用戶,沒有參數時,默認切換為root用戶;
su # 切換為root ## 推薦 su - # 切換為root 並加載user1的環境配置 su - user1 # 切換為user1 並加載user1的環境配置
sudo : 讓當前用戶暫時以管理員的身份root來執行命令。
Ubuntu 默認沒有啟用root用戶, 普通用戶執行一些特殊的操作時,使用sudo就可以讓普通用戶以root用戶的身份執行命令
sudo有一個配置文件: /etc/sudoers ; 通過修改配置文件可以讓指定用戶使用sudo命令
關於各個文件的作用域:
(1) /etc/profile: 此文件為系統的每個用戶設置環境信息,當用戶第一次登錄時,該文件被執行. 並從/etc/profile.d目錄的配置文件中搜集shell的設置。
(2) /etc/bashrc: 為每一個運行bash shell的用戶執行此文件.當bash shell被打開時,該文件被讀取(即每次新開一個終端,都會執行bashrc)。
(3) ~/.bash_profile: 每個用戶都可使用該文件輸入專用於自己使用的shell信息,當用戶登錄時,該文件僅僅執行一次。默認情況下,設置一些環境變量,執行用戶的.bashrc文件。
(4) ~/.bashrc: 該文件包含專用於你的bash shell的bash信息,當登錄時以及每次打開新的shell時,該該文件被讀取。
(5) ~/.bash_logout: 當每次退出系統(退出bash shell)時,執行該文件. 另外,/etc/profile中設定的變量(全局)的可以作用於任何用戶,而~/.bashrc等中設定的變量(局部)只能繼承 /etc/profile中的變量,他們是"父子"關系。(6) ~/.bash_profile: 也可能是 .profile 是交互式、login 方式進入 bash 運行的~/.bashrc 是交互式 non-login 方式進入 bash 運行的通常二者設置大致相同,所以通常前者會調用後者。
PATH變量的設置
env : 查看當前環境變量
export : 設置或顯示環境變量。
source : 在當前bash環境下讀取並執行FileName中的命令。該filename文件可以無"執行權限"
tar:
-c :建立一個壓縮文件的參數指令(create 的意思); -x :解開一個壓縮文件的參數指令! -t :查看 tarfile 裏面的文件! 特別註意 c/x/t 同時僅能存在一個,因為不可能同時壓縮與解壓縮。 -z :是否同時具有 gzip 的屬性?亦即是否需要用 gzip 壓縮? -j :是否同時具有 bzip2 的屬性?亦即是否需要用 bzip2 壓縮? -v :壓縮的過程中顯示文件!這個常用,但不建議用在背景執行過程! -f :使用檔名,請留意,在 f 之後要立即接文件名 -p :使用原文件的原來屬性(屬性不會依據使用者而變) -P :可以使用絕對路徑來壓縮! -N :比後面接的日期(yyyy/mm/dd)還要新的才會被打包進新建的文件中! # 將當前目錄下所有.txt文件打包並壓縮歸檔到文件this.tar.gz tar czvf this.tar.gz ./*.txt # 將當前目錄下的this.tar.gz中的文件解壓到當前目錄 tar xzvf this.tar.gz ./ # 將整個 /etc 目錄下的文件全部打包成為 /tmp/etc.tar tar -cvf /tmp/etc.tar /etc # 僅打包,不壓縮! tar -zcvf /tmp/etc.tar.gz /etc # 打包後,以 gzip 壓縮 tar -jcvf /tmp/etc.tar.bz2 /etc # 打包後,以 bzip2 壓縮 # 解壓文件 tar -xf a.tar.gz # tar -xf a.tar.gz -C /tmp # 指定解包路徑
grep:
格式: grep [OPTIONS] PATTERN [FILE...] grep [OPTIONS] [-e PATTERN] [FILE...] 參數: -c --count #計算符合樣式的列數 -l --file-with-matches #列出文件內容符合指定的樣式的文件名稱。 -v --revert-match #顯示不包含匹配文本的所有行。 -i --ignore-case #忽略字符大小寫的差別。 -o # 只顯示匹配到的關鍵字 -n # 現實行號 -E 使用正則表達式
vi/vim
進入vi的命令
vi filename :打開或新建文件,並將光標置於第一行首
vi +n filename :打開文件,並將光標置於第n行首
vi + filename :打開文件,並將光標置於最後一行首
vi +/pattern filename:打開文件,並將光標置於第一個與pattern匹配的串處
vi -r filename :在上次正用vi編輯時發生系統崩潰,恢復filename
vi filename....filename :打開多個文件,依次進行編輯
移動光標類命令
h :光標左移一個字符
l :光標右移一個字符
space:光標右移一個字符
Backspace:光標左移一個字符
k或Ctrl+p:光標上移一行
j或Ctrl+n :光標下移一行
Enter :光標下移一行
w或W :光標右移一個字至字首
b或B :光標左移一個字至字首
e或E :光標右移一個字至字尾
) :光標移至句尾
( :光標移至句首
}:光標移至段落開頭
{:光標移至段落結尾
nG:光標移至第n行首
n+:光標下移n行
n-:光標上移n行
n$:光標移至第n行尾
H :光標移至屏幕頂行
M :光標移至屏幕中間行
L :光標移至屏幕最後行
0:(註意是數字零)光標移至當前行首
$:光標移至當前行尾
屏幕翻滾類命令
Ctrl+u:向文件首翻半屏
Ctrl+d:向文件尾翻半屏
Ctrl+f:向文件尾翻一屏
Ctrl+b;向文件首翻一屏
nz:將第n行滾至屏幕頂部,不指定n時將當前行滾至屏幕頂部。
插入文本類命令
i :在光標前
I :在當前行首
a:光標後
A:在當前行尾
o:在當前行之下新開一行
O:在當前行之上新開一行
r:替換當前字符
R:替換當前字符及其後的字符,直至按ESC鍵
s:從當前光標位置處開始,以輸入的文本替代指定數目的字符
S:刪除指定數目的行,並以所輸入文本代替之
ncw或nCW:修改指定數目的字
nCC:修改指定數目的行
刪除命令
ndw或ndW:刪除光標處開始及其後的n-1個字
do:刪至行首
d$:刪至行尾
ndd:刪除當前行及其後n-1行
x或X:刪除一個字符,x刪除光標後的,而X刪除光標前的
Ctrl+u:刪除輸入方式下所輸入的文本
搜索及替換命令
/pattern:從光標開始處向文件尾搜索pattern
?pattern:從光標開始處向文件首搜索pattern
n:在同一方向重復上一次搜索命令
N:在反方向上重復上一次搜索命令
:s/p1/p2/g:將當前行中所有p1均用p2替代
:n1,n2s/p1/p2/g:將第n1至n2行中所有p1均用p2替代
:g/p1/s//p2/g:將文件中所有p1均用p2替換
選項設置
all:列出所有選項設置情況
term:設置終端類型
ignorance:在搜索中忽略大小寫
list:顯示制表位(Ctrl+I)和行尾標誌($)
number:顯示行號
report:顯示由面向行的命令修改過的數目
terse:顯示簡短的警告信息
warn:在轉到別的文件時若沒保存當前文件則顯示NO write信息
nomagic:允許在搜索模式中,使用前面不帶“\”的特殊字符
nowrapscan:禁止vi在搜索到達文件兩端時,又從另一端開始
mesg:允許vi顯示其他用戶用write寫到自己終端上的信息
最後行方式命令
:n1,n2 co n3:將n1行到n2行之間的內容拷貝到第n3行下
:n1,n2 m n3:將n1行到n2行之間的內容移至到第n3行下
:n1,n2 d :將n1行到n2行之間的內容刪除
:w :保存當前文件
:e filename:打開文件filename進行編輯
:x:保存當前文件並退出
:q:退出vi
:q!:不保存文件並退出vi
:!command:執行shell命令command
:n1,n2 w!command:將文件中n1行至n2行的內容作為command的輸入並執行之,若不指定n1,n2,則表示將整個文件內容作為command的輸入
:r!command:將命令command的輸出結果放到當前行
寄存器操作
"?nyy:將當前行及其下n行的內容保存到寄存器?中,其中?為一個字母,n為一個數字
"?nyw:將當前行及其下n個字保存到寄存器?中,其中?為一個字母,n為一個數字
"?nyl:將當前行及其下n個字符保存到寄存器?中,其中?為一個字母,n為一個數字
"?p:取出寄存器?中的內容並將其放到光標位置處。這裏?可以是一個字母,也可以是一個數字
ndd:將當前行及其下共n行文本刪除,並將所刪內容放到1號刪除寄存器中。
一、插入文本
i 在當前字符前插入文本
I 在行首插入文本
a 在當前字符後添加文本
A 在行末添加文本
o 在當前行後面插入一空行
O 在當前行前面插入一空行
R 以改寫方式輸入文本
二、移動光標
j或下箭頭 向下移動一行
k或上箭頭 向上移動一行
h或左箭頭 左移一個字符
l或右箭頭 右移一個字符
w 右移一個詞
W 右移一個以空格分隔的詞
b 左移一個詞
B 左移一個以空格分隔的詞
0 移到行首
Ctrl-F 向前翻頁
Ctrl-B 向後翻頁
nG 到第n行
G 到最後一行
三、替換文本
$ 到行尾
( 到句子的開頭
) 到句子的末尾
{ 到段落的開頭
} 到段落的末尾
四、刪除文本
r 替換一個字符
c 修改文本直到按下Esc健
cw 修改下一個詞
cnw 修改接下來的n個詞
五、文本編輯
yy 將一行文本移到缺省緩沖區中
yn 將下一個詞移到缺省緩沖區中
ynw 將後面的n個詞移到缺省緩沖區中
p 如果缺省緩沖區中包含一行文本,則在當前
行後面插入一個空行井將缺省緩沖區中的聲
容粘貼到這一行中;如果缺省緩沖區中包含
多個詞,把這些詞粘貼到光標的右邊.
P 如果缺省緩沖區中包含一行文本,則正當前
行前面插入一個空行井將缺省緩沖區中的內
容粘貼到這一行中;如果缺省緩沖區中包含
多個詞,把這些詞粘貼到光標的左邊
六、保存退出
zz 保存並退出
:w filename 寫入文件
:W 寫入文件
:x 保存(如果當前文件修改過)並退出
:q! 不保存文件,直接退出
:q 退出vi
vi編輯器的啟動與退出
直接進入編輯環境
$ vi
進入編輯環境並打開(新建)文件
$ vi myfile
退出vi編輯環境
輸入末行命令放棄對文件的修改,並退出編輯器
:q!
保存文件
保存對vi編輯器中已打開文件的修改
:w
另存為文件
將vi編輯器中的內容另存為指定文件名
:w myfile
退出vi編輯器的多種方法
未修改退出
沒有對vi編輯器中打開的文件進行修改,或已對修改進行了保存,直接退出vi編輯器
:q
對vi編輯器中的文件進行保存並退出vi編輯器
:wq
不保存退出
放棄對文件內容的修改,並退出vi編輯器
:q!
光標的移動和翻頁操作
h向左移動光標
l向右移動光標
k向上移動光標
j向下移動光標
翻頁Ctrl + f向前翻整頁
Ctrl + b向後翻整頁
Ctrl + u向前翻半頁
Ctrl + d向後翻半頁
行內快速跳轉
^將光標快速跳轉到本行的行首字符
$將光標快速跳轉到本行的行尾字符
w將光標快速跳轉到當前光標所在位置的後一個單詞的首字母
b將光標快速跳轉到當前光標所在位置的前一個單詞的首字母
e將光標快速跳轉到當前光標所在位置的後一個單詞的尾字母
文件內行間快速跳轉
命令功能
:set nu 在編輯器中顯示行號
:set nonu 取消編輯器中的行號顯示
1G跳轉到文件的首行
G跳轉到文件的末尾行
#G跳轉到文件中的第#行
進入輸入模式
i在當前光標處進入插入狀態
a在當前光標後進入插入狀態
A將光標移動到當前行的行末,並進入插入狀態
o在當前行的下面插入新行,光標移動到新行的行首,進入插入狀態
O在當前行的上面插入新行,光標移動到新行的行首,進入插入狀態
cw刪除當前光標到所在單詞尾部的字符,並進入插入狀態
c$刪除當前光標到行尾的字符,並進入插入狀態
c^命令刪除當前光標之前(不包括光標上的字符)到行首的字符,並進入插入狀態
輸入模式的編輯鍵操作
方向鍵進行上下左右方向的光標移動
Home快速定位光標到行首
End快速定位光標到行尾
PageUp進行文本的向上翻頁
PageDown進行文本的向下翻頁
Backspace刪除光標左側的字符
Del刪除光標位置的字符
刪除操作
x刪除光標處的單個字符
dd刪除光標所在行
dw刪除當前字符到單詞尾(包括空格)的所有字符
de刪除當前字符到單詞尾(不包括單詞尾部的空格)的所有字符
d$刪除當前字符到行尾的所有字符
d^刪除當前字符到行首的所有字符
J刪除光標所在行行尾的換行符,相當於合並當前行和下一行的內容
替換操作
:s/old/new 將當前行中查找到的第一個字符“old” 串替換為“new”
:s/old/new/g 將當前行中查找到的所有字符串“old” 替換為“new”
:#,#s/old/new/g 在行號“#,#”範圍內替換所有的字符串“old”為“new”
:%s/old/new/g 在整個文件範圍內替換所有的字符串“old”為“new”
:s/old/new/c 在替換命令末尾加入c命令,將對每個替換動作提示用戶進行確認
撤消操作
u取消最近一次的操作,並恢復操作結果
可以多次使用u命令恢復已進行的多步操作
U取消對當前行進行的所有操作
Ctrl + r對使用u命令撤銷的操作進行恢復
復制與粘貼操作
yy復制當前行整行的內容到vi緩沖區
yw復制當前光標到單詞尾字符的內容到vi緩沖區
y$復制當前光標到行尾的內容到vi緩沖區
y^復制當前光標到行首的內容到vi緩沖區
p讀取vi緩沖區中的內容,並粘貼到光標當前的位置(不覆蓋文件已有的內容)
字符串查找操作
/word從上而下在文件中查找字符串“word”
?word 從下而上在文件中查找字符串“word”
n定位下一個匹配的被查找字符串
N定位上一個匹配的被查找字符串
快捷鍵
ctrl-a : 把光標移動到命令行最開始的地方。
ctrl-e : 把光標移動到命令行末尾。
ctrl-u : 清除命令行中光標所處位置之前的所有字符。
ctrl-k : 清除從提示符所在位置到行末尾之間的字符
ctrl-w : 清除左邊的字段
ctrl-y : 將會貼上被ctrl-u 或者 ctrl-k 或者 ctrl-w清除的部分。
ctrl-r : 將自動在命令歷史緩存中增量搜索後面入的字符。
tab : 命令行自動補全-自動補全當前的命令行。如果啟用自動補全腳本命令參數和選項也可以自動補齊。
ctrl-l : 清屏
以上就是常用的操作命令,有一部分沒有記錄,如要查看,請查看原網址http://www.cnblogs.com/resn/p/5800922.html
3、安裝過程
1、在整個安裝過程中主要流程是創建Hadoop用戶--》賦予管理員權限--》更新apt--》安裝vim--》安裝SSH、配置SSH無密碼登錄(SSH clint已默認安裝,只需安裝SSH server)
--》安裝java環境(該處用到vim命令,該篇上面已給出,請自行查找,推薦按照第二種安裝JDK方式)--》安裝Hadoop2(登錄網址進行下載,推薦:下載一個Google瀏覽器,火狐網址太慢)--》Hadoop單機配置(非分布式,註:執行案例時,Hadoop默認不會覆蓋結果文件,再次執行時,需要先將結果文件進行刪除)--》Hadoop偽分布式配置(修改配置文件)
4、Hadoop集群基本理解(自行參考)
Hadoop兩大核心組件
1、HDFS
主要包含兩大核心節點,由一個NameNode和若幹個DataNode數據節點組成分布式文件系統
NameNode就像一個目錄服務器一樣,我們應用來取數據的時候首先會去訪問NameNode,去獲得我們要獲取的數據是被分別放到哪個服務器的DataNode上,取完了然後拼接起來就完成了整個分布式文件的訪問
2、MapReduce
MapReduce也包含兩大核心組件一個是JobTracker另一個是TaskTracker
JobTracker相當於一個作業管家,它會對你整個的MapReduce作業進行管理,他會把用戶大的作業拆分成很多小的作業,分發到不同的機器上去執行,TaskTracker安裝在了不同的機器上,每一個TaskTracker都負責監控和執行JobTracker分配給自己的小作業,JobTracker這個作業管家會協調不同機器上的TaskTracker去完成一個大的作業
還有一個組件是SecondaryNameNode,它是屬於我們HDFS中NameNode的一個冷備份
大數據學習第一章