HDFS_資料遷移&節點遷移

阿新 • • 發佈：2019-01-25

一、資料遷移

使用場景：

① 冷熱叢集資料分類儲存
② 叢集資料整體搬遷
③ 資料的準實時同步，目的在於資料的雙備份可用
資料遷移要素考量：

① 頻寬Bandwidth：需要限流

② 效能Performance：採用單機程式還是分散式程式？

③ 增量同步Data-Increment:原始資料檔案進行了追加寫、原始資料檔案被刪除或重新命名
在海量資料儲存系統如HDFS中，一般不會在原始檔內容上做修改，要麼繼續追加寫，要麼刪除檔案。所以做增量資料同步，只要考慮上述兩個條件即可
判斷追加寫：
1)先比較檔案大小，如果兩個階段檔案大小發生改變，說明檔案在內容上已經發生變更，變更的型別有兩類。擷取對應原始長度部分進行checksum(校驗和)比較，如果一致，則此檔案發生了追加寫。不一致，則說明檔案在原內容上也已經改變
2)如果檔案大小一致，則計算相應的checksum，然後進行比較

④ 資料遷移的同步性
資料遷移解決方案：DistCp
1) DistCp支援頻寬限流，可以通過引數bandwidth來控制
2) 增量同步資料，通過update、append、diff這3個引數來控制
·Update：更新目標路徑，只拷貝相對於源端，目標端不存在的檔案或目錄
·Append：追加寫目標路徑下已經存在的檔案，如果這個檔案在源端已經發生了追加寫操作
·Diff：通過快照的diff對比資訊來同步源路徑與目標路徑
·高效的效能：執行的分散式特性（純map任務構成的job）、高效的MR元件
Hadoop DistCp命令：
```
distcp OPTIONS [-source_path···] <target_path>
 
```
OPTIONS
-append //拷貝檔案時支援對現有檔案進行追加寫操作
-async //非同步執行distcp拷貝任務
-bandwidth //對每個map任務的頻寬限速
-delete //刪除相對於源端，目標端多出來的檔案
-diff //通過快照diff資訊進行資料的同步
-overrite //以覆蓋的方式進行拷貝，如果目標端檔案已經存在，則直接進行覆蓋
-p //拷貝資料時，擴充套件屬性資訊的保留，包括許可權資訊、塊大小資訊等等
-skipcrccheck //拷貝資料時是否跳過校驗和的校驗
-update //拷貝資料時，只拷貝相對於源端，目標端不存在的檔案資料
其中source_path、target_path需要帶上地址字首以區分不同的叢集：
```
hadoop distcp hdfs://nn1:8020/foo/a hdfs://nn2:8020/bar/foo
```

二、DataNode節點遷移

目標：
將原DataNode所在節點的機器從A機房換到B機房，其中會涉及主機名和ip地址的改變，需要保證資料不發生丟失
相關知識：
機器遷移將使該節點停止心跳，如果超過心跳檢查時間，將被認為是死節點，從而發生大量塊複製現象。為了使得短時間內不成為死節點，需要人工把心跳超時檢查時間設大。
```
<name>dfs.namenode.heartbeat.recheck-interval</name>
<value>10800000</value>  #3小時
```
執行以下操作使得配置生效：
① 更新standby namenode的hdfs-site.xml的配置，並重啟
② 等待standby namenode退出safemode之後，再stop active namenode，更新配置並重啟
此種方案只適用於DataNode不涉及主機名和IP地址變化的情況

DataNode更換主機名、IP地址時的遷移方案
① 停止叢集hdfs相關的服務，最好把YARN相關的服務也停止
② 修改HDFS叢集名稱相關配置
core-site.xml:

<name>fs.defaultFS</name>
    <value>hdfs://clusterA</value>
    <final>true</final>

yarn-site.xml:

<name>yarn.resourcemanager.fs.state-store.uri</name>
    <value>hdfs://clusterA/logs/yarn/rmstore</value>

hdfs-site.xml:

<name>dfs.nameservices</name>
    <value>clusterA</value>

<name>dfs.ha.namenodes.clusterA</name>
    <value>nn1,nn2</value>

<name>dfs.namenode.rpc-address.clusterA.nn1</name>
    <value>clusternn1:9000</value>

<name>dfs.namenode.rpc-address.clusterA.nn2</name>
    <value>clusternn2:9000</value>

<name>dfs.namenode.http-address.clusterA.nn1</name>
    <value>clusternn1:50070</value>

<name>dfs.namenode.http-address.clusterA.nn2</name>
    <value>clusternn2:50070</value>

<name>dfs.client.failover.proxy.provider.clusterA</name>
     <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>

③ 重新格式化HDFS所依賴的znode

hdfs zkfc -formatZK

④ 重啟HDFS相關服務，執行hadoop的fs命令是否可用，最後啟動YARN 服務，並提交一個wordcount任務到YARN上做測試

HDFS_資料遷移&節點遷移

一、資料遷移使用場景： ① 冷熱叢集資料分類儲存 ② 叢集資料整體搬遷 ③ 資料的準實時同步，目的在於資料的雙備份可用資料遷移要素考量： ① 頻寬Bandwidth：需要限流 ② 效能

ElasticStack系列之二十 & 資料均衡、遷移、冷熱分離以及節點自動發現原理與機制

1. 資料均衡　　某個shard分配到哪個節點上，一般來說，是由 ELasticSearch 自行決定的。以下幾種情況會觸發分配動作：新索引的建立索引的刪除新增副本分片節點增減引發的資料均衡　　在動態分配的時候有幾個預設值需要注意，當然對應的這些預設值都是可以修改的，具

Hadoop節點遷移

set oop type ima 提示 data manage sudo 負載增刪節點數據遷移一、所有事情開始之前，先要備份好cloudera manager的數據庫，以及hadoop集群中的一些組件帶的數據庫。這裏保存了很多元數據，像hive這種丟了很麻煩的

JSON資料從OSS遷移到MaxCompute最佳實踐

本文為您介紹如何利用DataWorks資料整合將JSON資料從OSS遷移到MaxCompute，並使用MaxCompute內建字串函式GET_JSON_OBJECT提取JSON資訊。資料上傳OSS 將您的JSON檔案重新命名字尾為TXT檔案，並上傳到OSS。本文中使用的JSON檔案示例如下。

把kafka資料從hbase遷移到hdfs，並按天載入到hive表(hbase與hadoop為不同叢集)

需求：由於我們用的阿里雲Hbase，按儲存收費，現在需要把kafka的資料直接同步到自己搭建的hadoop叢集上，(kafka和hadoop叢集在同一個區域網)，然後對接到hive表中去，表按每天做分割槽一、首先檢視kafka最小偏移量（offset） /usr/local/kafka/bin/k

易學筆記-第6章資料管理/6.3 利用資料卷容器遷移資料

利用資料卷容器遷移資料利用資料庫備份資料 [[email protected] ~]# docker run -it --name backdocker --volumes-from datadocker -v /backup docker.io/ubuntu:lat

JSON資料從MongoDB遷移到MaxCompute最佳實踐

資料及賬號準備首先您需要將資料上傳至您的MongoDB資料庫。本例中使用阿里雲的雲資料庫 MongoDB 版，網路型別為VPC（需申請公網地址，否則無法與DataWorks預設資源組互通），測試資料如下。 { "store": {

ElasticSearch資料備份與遷移

ES提供快照和恢復功能，我們可以在遠端檔案系統倉庫（比如共享檔案系統、S3、HDFS等）中單獨給部分索引或者整個叢集建立快照。這些快照對備份非常有用，它們能相對較快地被恢復。但是，快照只能被恢復到可以讀取他們的ES版本中：在5.x建立的索引的快照可以被恢復到

Kubernetes的etcd資料檢視和遷移

Kubernetes的叢集元資料都儲存在etcd中，我們可以直接訪問來檢視資料。 1、檢視etcd資料 kubeadm預設安裝方法如下： ETCDCTL_API=3 etcdctl --endpoints=https://[127.0.0.1]:2379 \ --cacert=/etc/kub

kafka單節點遷移到分散式

一 zookeeper 分散式搭建下載zookpeeper：zookeeper-3.14.10.tar.gz 根據公司使用將zookeeper-3.4.10.tar.gz在user/local/下解壓建立資料夾mkdir /usr/loca

Redis原始碼解析：28叢集(四)手動故障轉移、從節點遷移

一：手動故障轉移 Redis叢集支援手動故障轉移。也就是向從節點發送”CLUSTER FAILOVER”命令，使其在主節點未下線的情況下，發起故障轉移流程，升級為新的主節點，而原來的主節點降級為從節點。為了不丟失資料，向從節點發送”C

redis資料備份與遷移

本來準備使用redis-dump工具弄的，但是linux上一直裝不成功所以只能使用rdb的方式了 rdb的方式就是使用SAVE命令建立當前redis資料庫的備份，然後將備份放到新的redis下，讓新redis去載入這個備份。。操作步驟很簡單首先進入

如何在不停機的情況下，完成百萬級資料跨表遷移？

技術團隊面臨的困難總是相似的：在業務發展到一定的時候，他們總是不得不重新設計資料模型，以此來支援更加複雜的功能。在生產環境中，這可能意味著要遷移幾百萬條活躍的資料，以及重構數以千行計的程式碼。 Stripe的使用者希望我們提供的API要具備可用性和一致性。這意味著在做遷移時，我們必須非常小心：儲存

如何在不停機的情況下，完成百萬級資料跨表遷移

技術團隊面臨的困難總是相似的：在業務發展到一定的時候，他們總是不得不重新設計資料模型，以此來支援更加複雜的功能。在生產環境中，這可能意味著要遷移幾百萬條活躍的資料，以及重構數以千行計的程式碼。 Stripe的使用者希望我們提供的API要具備可用性和一致性。這意味著在做遷

利用阿里雲自定義映象實現伺服器資料/網站快速遷移

雙十一活動臨近，各大服務商都有一定的促銷活動，確實從成本角度考慮在活動期間對於有需要雲端計算類產品的使用者而言確實是比較實惠的。如果我們個人使用者且壓根沒有搞清楚自己是否需要，那就要捂緊口袋不要被商家忽悠住。這幾天應該有看到阿里雲、騰訊雲商家的活動，比如三年付720元的阿里雲確實還是比較划算的。

Kafka叢集中 topic資料的分割槽遷移到其他broker

前言 kafka叢集擴容後，新的broker上面不會資料進入這些節點，也就是說，這些節點是空閒的；它只有在建立新的topic時才會參與工作。除非將已有的partition遷移到新的伺服器上面；所以需要將一些topic的分割槽遷移到新的broker上。另外一種情況就是叢集減少broker節點，對原有的topi

hive元資料從mysql遷移到oracle

Stop Hive MetaStore and Hive Server sudo service hive-metastore stop sudo service hive-server2 stop Dump myql資料執

Oracle_2：oracle 資料查詢，遷移之dblink的建立

一、測試條件、環境 1、測試條件： 1號伺服器(目標資料庫) SID：orcl 1 使用者名稱：user1 密碼：pwd1 IP地址：192.168.4.1 3號伺服器(源資料庫) SID:orcl3

redis資料備份，遷移

背景　　最近公司由於業務量的增大和需求的變更，一個子系統需要遷移到一臺香港伺服器。由於系統使用到了redis進行資料統計，需要進行資料遷移，遷移過程如下。 1.原有伺服器登入系統，執行命令，進入redis命令模式，檢視資料備份存放的目錄： red

Mysql 資料目錄的遷移方法

附：資料目錄的遷移方法原目錄：/var/lib/mysql新目錄：/data/mysql1）關閉MySQL/etc/init.d/mysqld stop2）修改/etc/my.cnf的datadir和socket指向新的目錄： [plain] view plaincop

HDFS_資料遷移&節點遷移

相關推薦