Google思想一（GFS - Google File System）

阿新 • • 發佈：2018-11-25

思考1：Google 搜尋引擎每天要從世界各地抓取數以億計的網頁，資料都儲存在哪裡呢？

GFS：使用大量廉價的去掉硬碟的 PC 機構成叢集，將資料都儲存在伺服器的記憶體中，採用分散式的檔案系統進行儲存。

思考2：記憶體中的資料掉電會丟失，怎麼保證可靠呢？

在世界各地進行部署，部分地區還配有發電廠。

當然，不是所有的公司都像 Google 一樣技術牛X，有錢，資料都存記憶體裡面。我們的資料主要還是儲存在硬碟中的，但是思路還是採用分散式的思想。

什麼是分散式檔案系統？

思考3：為什麼要用分散式檔案系統？分散式檔案系統解決了什麼問題？

分散式檔案系統解決了資料的儲存問題。

在沒有使用分散式的檔案系統時，資料儲存可能遇到的問題有：

硬碟不夠大，容納不了我們要儲存的資料。
解決：多幾個硬碟。
要儲存的資料非常大，一下把資料全部存入硬碟，中途斷電了，部分資料不就丟失了嗎，怎麼辦？
解決：將資料分塊，按資料塊的大小進行儲存。

ps：Hadoop1.x 的 HDFS 資料塊的預設大小是 64 M，Hadoop2.x 的 HDFS 資料塊的預設大小是128 M。
硬碟不夠安全，硬碟一旦損壞，上面的資料就丟失了。
解決：資料冗餘（同一份資料存多份），客戶端上傳到服務端一份資料之後，服務端通過水平復制

的方式，複製多份相同的資料塊到不同的硬碟。

ps：HDFS 資料塊預設的冗餘度是 3，也就是 1 個數據塊在 HDFS 中存 3 份。

什麼是機架感知？

冗餘的資料塊具體要水平復制到哪些硬碟上呢？是通過什麼方式來決定資料塊的儲存位置呢？
解決：機架感知。
機架感知如何分配後兩份資料塊的儲存位置？

第 2 份資料優先儲存在與第 1 份資料不在同一個機架的另外一個機架的伺服器上。（安全）

第 3 份資料優先儲存在與第 1 份資料在同一個機架的另外一個伺服器上。（效率）
為什麼第 2 份資料優先儲存在與第 1 份資料不在同一個機架的另外一個機架的伺服器上？
這是從安全

的角度考慮的，萬一 rack1 上的所有伺服器都掛掉了，還有 rack2 作為後援。
為什麼第 3 份資料優先儲存在與第 1 份資料在同一個機架的另外一個伺服器上？
這是從效率的角度考慮的，rack1 上所有伺服器都掛掉的該率是比較小的，但是某臺伺服器掛掉的概率還是有的。儲存第一份資料的伺服器掛掉後，還可以立即從所處的機架上的另一臺伺服器上取資料，效率較高。
資料塊的水平復制，硬碟的新增和移除這些功能由誰來做呢？
需要有一個管理員來管理，不，兩個管理員。

ps：到目前為止，用紅框框住的部分就是我們的 HDFS，其實 HDFS 也就是仿照 GFS 的一個通用的（便宜）分散式檔案系統。
資料塊分佈在各個伺服器上，怎麼查詢呢？
解決：使用倒排索引，和資料庫中的索引類似，儲存的是資料塊中的位置資訊（元資訊）。

什麼是倒排索引？

思考4：什麼是正排索引？正排索引哪裡不好？為什麼要使用倒排索引？

什麼是正排索引？

以搜尋引擎舉例：每個檔案都對應了一個檔案 ID，檔案內容是一系列的關鍵詞的集合，在這個集合中儲存了每個關鍵詞出現的次數。

假如使用正排索引，那麼在搜尋引擎上搜索 “大資料” 時，搜尋引擎就需要掃描庫中所有的文件，找出所有包含 “大資料” 這個關鍵詞的檔案，根據文件 ID 找關鍵詞，這就是正排索引。

很明顯，使用正排索引的方式難以滿足查詢需求，所以就有了倒排索引。
什麼是倒排索引？

倒排索引就是根據關鍵詞找檔案 ID。通過這種方式，就能大大提高搜尋引擎檢索文件的速度。

以上就是 Google 第一篇論文（GFS）中的一些思想。

Google思想一（GFS - Google File System）

思考1：Google 搜尋引擎每天要從世界各地抓取數以億計的網頁，資料都儲存在哪裡呢？ GFS：使用大量廉價的去掉硬碟的 PC 機構成叢集，將資料都儲存在伺服器的記憶體中，採用分散式的檔案系統進行儲存。思考2：記憶體中的資料掉電會丟失，怎麼保證可靠呢？

Google思想三（BigTable）

BigTable 最基本的思想是把所有的資料都存入一張表。大表的思想有什麼問題？引起資料的冗餘。大表的思想有什麼優點？通過犧牲空間，換取了時間，提高了效能。 HBase 就是 BigTable 這種思想的一種實現。

Google思想二（MapReduce）

MapReduce 的思想源於 PageRank（網頁排名）問題。 PageRank（網頁排名）現在有四個網頁，它們之間的存在如下引用關係：網頁 1 有 3 個引用，分別指向網頁 2，網頁 3，網頁 4。網頁 2 有 2 個引用，分別指向網頁 3，

五分鐘瞭解什麼是Google檔案系統（GFS）？

簡介 Google檔案系統是構建在廉價伺服器之上的大型分散式檔案系統。它將伺服器故障視為正常現象，通過軟體的方式自動容錯，在保證系統可靠性和可用性的同時，大大降低系統的成本系統架構 GFS系統的節點可以分為三種角色 GFS Master（主控伺服器） GFS

文件系統（File System）

當前目錄表格只需要基本操作 nbsp 文件管理系統 pan 存儲文件內容什麽是文件系統，引用百科解釋：　　操作系統中負責管理和存儲文件信息的軟件機構稱為文件管理系統，簡稱文件系統。文件系統是操作系統核心的組成部分，沒有它我們無法完成對文件的增、刪、改、查等基本

NFS（Network File System）的有關知識

NFS 是Network File System的縮寫，即網路檔案系統。一種使用於分散式檔案系統的協定，由Sun公司開發，於1984年向外公佈。功能是通過網路讓不同的機器、不同的作業系統能夠彼此分享個別的資料，讓應用程式在客戶端通過網路訪問位於伺服器磁碟中的資料

NFS（network file system）網路檔案系統1

1、這個服務是進行linx下的檔案傳輸，後面部落格會出現samba是進行windows和linux之間的檔案傳輸。 2、nfs的用處：本地工作站會使用更少的磁碟的空間，把資料放在一個機器上面。

Google gflags庫（解析命令列引數）

google gflags是google使用的一個開源庫，用於解析命令列標記。目前的gflags有C++和Python兩個版本。本文主要介紹gflags的C++版本使用方法。命令列標記是指使用者在執行可執行程式時，在命令列中指定的引數。例如，對於命令： fgre

【教程】教你找到免費的Google Translate API（谷歌翻譯介面）+C#版的Google翻譯函式

今日，在想要在C#中，利用google翻譯，實現把中文翻譯為英文。然後就去找，對應翻譯的url和引數是如何使用的。參考之前自己的的BlogsToWordpress中的Python版本的crifanLib：crifanLib.py中的translateString，然後去

網路檔案系統（Network File System）簡介

NFS (Network File System，網路檔案系統)是當前主流異構平臺共享檔案系統之一.主要應用在UNIX環境下。最早是由SUN microsystem開發，現在能夠支援在不同型別的系統之間通過網路進行檔案共享，廣泛應用在FreeBSD、SCO、Solaris等等

Xml一（基本語法和約束）、

字符一行語言 oca cas 書寫 xsd ati 寫法 XML：eXtensible Markup Language 可擴展標記語言 version="1.0" 　　　　* 可擴展：所有的標簽都是自定義的。　　　　* 功能：數據存儲　　　　* 配置文件　

form表單上傳域（type="file"）的使用----上傳文件

ctype 頁面 web sdi fff public exce res substr 一，單個文件的上傳 1.html/jsp頁面 <%@ page language="java" contentType="text/html; charset=UTF-8"

Linux命令（十）——Shell程序設計一（變量與操作符）

語法接口表數 lin ges images chmod .cn 分享 Shell是linux系統中用戶和系統交互的接口，它除了作為命令解釋器以外，還是一種高級程序設計語言。在前面介紹的linux命令中，Shell都作為命令解釋器出現。下面分兩節簡單介紹腳本程序設計中的語

Python 項目實踐一（外星人入侵小遊戲）第二篇

包含容易設置調用底部 itme 圖片 import 建立接著上次的繼續學習。一創建一個設置類每次給遊戲添加新功能時，通常也將引入一些新設置。下面來編寫一個名為settings的模塊，其中包含一個名為Settings的類，用於將所有設置存儲在一個地方，以免在代

Linux—CentOS7.4-DNS一（搭建DNS服務器）

查看運行 roo -- direct rfc ins resolv .com 相關概念：正向解析：將域名解析成IP地址反向解析：將IP地址解析成域名環境：linux服務器一臺，IP地址：192.168.80.10 第一步：準備工作[root@localhost ~]# y

python初學一（for迴圈語句介紹）

一、for迴圈基本知識： 1、for語句語法： for 與 while不同的是，for

python初學一（set的處理方式）

一、集合的基本知識： 1、概念：理解：沒

python初學一（dict的處理方式）

一、字典的基本知識： 1、無序、可變，可以通過key索引，不可切片。 2、字典的key是不可變資料型

python初學一（tuple的處理方式）

一、tuple的基本特性：

python初學一（list的處理方式）

一、列表的基本知識： 1、列表的建立： ①、直接建立： &nbs

Google思想一（GFS - Google File System）

什麼是分散式檔案系統？

什麼是機架感知？

什麼是倒排索引？

相關推薦