HDFS相關內容

阿新 • • 發佈：2021-12-20

HDFS定義：是一個檔案系統，用於儲存檔案、通過目錄樹來定位檔案，其次，他是分散式得，由很多伺服器聯合起來實現其功能，叢集中的伺服器有各自的角色。

HDFS主要使用場景：一次寫入，多次讀取。一個檔案經過建立、寫入和關閉之後就不需要改變。

HDFS特性：

hdfs是一個分散式的檔案系統，用於儲存檔案，通過統一的名稱空間目錄樹來定位檔案;
採用 master/slave（主從）架構。有一個 namenode 和多個 datanode 組成，各司其職;
分塊儲存，預設大小在Hadoop2.x版本中是128M；
namenode 元資料管理，負責維護整個hdfs檔案系統的目錄樹結構，以及每個檔案所對應的 block 塊資訊（block 的 id，及所在的 datanode 伺服器）。

DataNode 資料儲存檔案的 block 具體儲存由 datanode承擔，datanode 定時向 namenode 彙報自己持有的 block 資訊
副本機制，為了容錯，檔案的所有block 都會有副本
HDFS 的設計為適應一次寫入，多次讀取，且不支援檔案的修改。

HDFS優點：

(1)高容錯性

1)資料自動儲存多個副本。它通過增加副本的形式，提高容錯性。

2)某一個副本丟失以後，它可以自動恢復，這是由 HDFS內部機制實現的，我們不必關心。

(2)適合批處理

1)它是通過移動計算而不是移動資料。

2)它會把資料位置暴露給計算框架。

(3)適合大資料處理

1)資料規模：能夠處理資料規模達到 GB、TB、甚至PB級別的資料。

2)檔案規模：能夠處理百萬規模以上的檔案數量，數量相當之大。

3)節點規模：能夠處理10K節點的規模。

(4)流式資料訪問

1)一次寫入，多次讀取，不能修改，只能追加。

2)它能保證資料的一致性。

(5)可構建在廉價機器上

1)它通過多副本機制，提高可靠性。

2)它提供了容錯和恢復機制。比如某一個副本丟失，可以通過其它副本來恢復。

2、 HDFS 缺點：

(1)不適合低延時資料訪問；

1)比如毫秒級的來儲存資料，這是不行的，它做不到。

2)它適合高吞吐率的場景，就是在某一時間內寫入大量的資料。但是它在低延時的情況下是不行的，比如毫秒級以內讀取資料，這樣它是很難做到的。

改進策略

(2)無法高效的對大量小檔案進行儲存

1)儲存大量小檔案的話，它會佔用 NameNode大量的記憶體來儲存檔案、目錄和塊資訊。這樣是不可取的，因為NameNode的記憶體總是有限的。

2)小檔案儲存的尋道時間會超過讀取時間，它違反了HDFS的設計目標。改進策略

(3)併發寫入、檔案隨機修改

1)一個檔案只能有一個寫，不允許多個執行緒同時寫。

2)僅支援資料 append（追加），不支援檔案的隨機修改。

HDFS相關內容

關於線上一次DDOS攻擊和阿里雲DDOS防護相關內容

問題最近我們的一臺阿里雲伺服器 (ECS,有公網IP，Nginx 伺服器，開放了80,443)，遭受到了DDOS攻擊，主要攻擊的行為是攻擊我們443 埠。發起大量的請求。

模組shutil/shelve/configparser/logging等相關內容-22

day22 1.shutil 模組 import shutil# shutil.move(\'aaa\',\'eee\') #如果不存在eee資料夾，且在同目錄下，將aaa改名至eee# shutil.move(\'eee\',\'bbb\') # 如果有bbb資料夾，將eee移動至bbb資料夾# 壓縮res

模組re相關內容-23

day23 re模組 # 正則表示式：由一系列特殊字元拼接而成的表示式/規則，該表示式用於從一個大字串中匹配出符合規則的子字串import re#1、\\w 數字字母下劃線# print(re.findall(\'\\w\\w\\w\',\"h ello 123_ (0\"))

面向物件基礎相關內容-24

day24 1.面向物件 # 1、如何基於面向物件的思想寫程式# 例1# 學生的資料# stu_name = \"egon\"# stu_age = 18# stu_gender = \"male\"# 學生的功能# def choose(name, age, gender):#print(\'%s:%s:%s 正在選課\'

繫結方法、類方法和靜態方法等相關內容-25

day25 1.封裝 \"\"\"1、封裝（略）2、在封裝的基礎上，我可以將裝到物件或者類中的屬性給隱藏起來注意：（1）在定義類或者初始化物件時，在屬性前加__,就會將該屬性隱藏起來但該隱藏起始只是一種變形_類名__屬性名，

面向物件之繼承等相關內容-26

day26 1.繼承介紹 \"\"\"1 什麼是繼承繼承是一種新建類的方式，新建的類稱之為子類，被繼承的類稱之為父類、基類、超類python支援多繼承2 為何要繼承子類會遺傳父類的屬性，所以繼承是用來解決類與類之間程式碼冗

面向物件之異常處理等相關內容-28

1.異常處理 \"\"\"1、什麼是異常異常是錯誤發生的訊號，一旦程式出錯就會產生一個異常如果該異常沒有被處理，該異常就會被丟擲來，程式的執行隨即終止異常是由三部分組成1、具體哪一行程式碼丟擲的異常2、異常的種

面向物件之組合、多型、以及內建函式及方法等相關內容-27

1.在子類派生的新方法中重用父類功能的方式二 # 1\\在子類派生的新方法中重用父類的功能# 方式一：指名道姓地呼叫某一個類的函式# 特點：不依賴於繼承關係## class OldboyPeople:#school = \"oldboy\"##空物件,\"艾利

網路程式設計（套接字）之UDP協議通訊以及基於socketserver模組實現併發效果等相關內容-33

1.基於udp協議的套接字通訊 # server.py# TCPVSUDP協議# 1、可靠性# tcp協議是可靠協議：#對方必須回覆一個ack確認資訊，才會將自己這端的資料從記憶體中刪除# udp協議不可靠：#傳送一條訊息就會立即刪除，不管對

補充知識之猴子補丁、內建函式以及垃圾回收機制等相關內容-35

1.猴子補丁 import jsonimport ujson # pip3 install ujsondef monkey_patch():json.__name__ = ujson.__name__json.dumps = ujson.dumpsjson.loads = ujson.loads# 用一個新的方法替代之前的方法

併發程式設計之程序理論及應用等相關內容-36

1.程序理論 #1、什麼是程序程序是一個程式執行的過程#2、什麼是程式程式就是一堆程式碼檔案#3、序列、併發、並行序列：多個任務依次執行，一個執行完畢再執行下一個並行：多個任務是真的在同時執行，只有多個cpu

併發程式設計之守護程序、互斥鎖以及佇列等相關內容-37

1.回顧 ···建立程序的兩種方式····第一種from multiprocessing import Processimport timedef task(n):print(\'我是子程序\')time.sleep(n)print(\'子程序結

併發程式設計之生產者消費者模型以及執行緒等相關內容-38

1.生產者消費者模型 # 初級生產者消費者模型# import time# import random# from multiprocessing import Process, Queue### def producer(name, food, q):#for i in range(10):#data = \'%s 製造了%s\' % (name, fo

併發程式設計之執行緒池以及協程等相關內容-40

1.執行緒池shutdown # 類似於是執行緒中的join功能from concurrent.futures import ThreadPoolExecutorimport timepool = ThreadPoolExecutor(3)def task(name):print(\'%s 開始\' % name)time.sleep(1)print(

資料庫之mysql多表查詢（連表）以及pymysql等相關內容-45

1.多表查詢 #建表create table department(id int,name varchar(20) );create table employee(id int primary key auto_increment,name varchar(20),sex enum(\'male\',\'female\') not null default \'male\',age

資料庫之mysql多表查詢（子查詢）以及pymysql等相關內容-46

1.子查詢in # 1、inselect * from emp where age=18 or age=38 or age=28;select * from emp where age in (18,38,28);# 子查詢的思路select * from emp where dep_id in(select id from dep where name=\"技術\"

知識補充之面向物件魔法方法及mysql等相關內容

# 1 seo sem百度搜索充錢可以靠前的是sem不充錢靠前的seo谷歌，必應國際版百度搜不到，搜出來的10篇文章9篇一毛一樣，碰到一個問題，怎麼解決，知乎（2個），思否（1個），csdn（沒有）

Css寬高自適應&&瀏覽器的相關內容

寬高自適應寬自適應若塊級元素寬度不設定，或者設定成100%，都是佔據其父級元素的一整行

前端之HTML基礎等相關內容-50

1.基礎 <!DOCTYPE html PUBLIC \"-//W3C//DTD XHTML 1.0 Transitional//EN\"\"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd\"><html xmlns=\"http://www.w3.org/1999/xhtml\" xml:lang=\"en\"

HDFS相關內容

相關推薦