叢集間資料拷貝和Hadoop存檔對於小檔案處理

阿新 • • 發佈：2018-11-10

scp實現兩個遠端主機之間的檔案複製

 scp -r hello.txt [email protected]:/user/atguigu/hello.txt  // 推 push
 scp -r [email protected]:/user/atguigu/hello.txt hello.txt  // 拉 pull
 scp -r [email protected]:/user/atguigu/hello.txt [email protected]:/user/atguigu //是通過本
 地主機中轉實現兩個遠端主機的檔案複製；如果在兩個遠端主機之間 ssh 沒有配置的情況下
 可以使用該方式。

使用discp命令實現兩個hadoop叢集之間的遞迴資料複製

 [email protected]  hadoop-2.7.2]$  bin/hadoop  distcp
 hdfs://haoop102:9000/user/atguigu/hello.txt hdfs://hadoop103:9000/user/atguigu/hello.txt

Hadoop存檔

hdfs儲存小檔案弊端
每個檔案均按照塊儲存,每個塊儲存在namenode的記憶體中,因此hadoop儲存小檔案會非常低效,因為大量的小檔案耗盡namenode中大部分記憶體,但是儲存小檔案所需要的磁碟容量和儲存這些檔案原始內容所需磁碟空間相對不會增加太多

例如:一個1Md的檔案大小按照128MB的塊儲存,實際使用的是1MB的磁碟空間,不是128MB

解決儲存小檔案的方法之一
Hadoop存到檔案或者HAR檔案,是一個更高效的檔案存檔工具**,它將檔案存入HDFS塊,**在較少namenode記憶體使用的同時.允許對檔案進行透明的訪問,具體:
Hadoop存檔檔案對內還是一個獨立檔案.對namenode而言.卻是一個整體,減少來了namenode的記憶體

實際就是小檔案合併,對於namenode是一個檔案

保證yarn程序的開啟

上傳幾個小檔案
在這裡插入圖片描述
3)歸檔檔案

 [[email protected] 
 test]# hadoop archive -archiveName 116har.har -p /test/zyd /test

在這裡插入圖片描述
實際是一個mar程式

在這裡插入圖片描述

是一些索引

歸檔成一個叫做XXX.har的資料夾,該資料夾下有相應的資料檔案,Xx.har目錄是一個整體,該目錄看成一個歸檔的檔案即可

檢視歸檔

[[email protected] test]# hadoop fs -lsr /test/116har.har
lsr: DEPRECATED: Please use 'ls -R' instead.
-rw-r--r--   3 root supergroup          0 2018-11-07 05:34 /test/116har.har/_SUCCESS
-rw-r--r--   5 root supergroup        185 2018-11-07 05:34 /test/116har.har/_index
-rw-r--r--   5 root supergroup         23 2018-11-07 05:34 /test/116har.har/_masterindex
-rw-r--r--   3 root supergroup          6 2018-11-07 05:33 /test/116har.har/part-0

具體檢視

[[email protected] test]# hadoop fs -lsr har:///test/116har.har
lsr: DEPRECATED: Please use 'ls -R' instead.
-rw-r--r--   3 root supergroup          6 2018-11-07 05:29 har:///test/116har.har/a.txt
-rw-r--r--   3 root supergroup          0 2018-11-07 05:29 har:///test/116har.har/read.txt

解歸檔檔案

 hadoop fs -cp har:///test/116har.har/read.txt /

相當於一個har:// 的歸檔協議

叢集間資料拷貝和Hadoop存檔對於小檔案處理

scp實現兩個遠端主機之間的檔案複製 scp -r hello.txt [email protected]:/user/atguigu/hello.txt // 推 push scp -r [email protected]:/user/atguigu

hadoop叢集間資料遷移工具

背景當前比較流行的hdfs間資料遷移工具有hadoop預設提供的distcp，阿里開源的DataX，這些工具能夠滿足常規的大部分需求，但是當時碰到hadoop版本不一致、keberos授權等場景時就行不通了。針對這些特殊的應用場景和實際需求我就構思並實現了Hd

hadoop叢集間資料遷移

1、兩個叢集版本不同的 hadoop distcp hftp://192.168.X.X:50070/tmp/test.txt /tmp 2、兩個叢集版本相同的 hadoop distcp hdfs://192.168.X.X:8020/tmp/test.txt /tm

白話大資料 | Spark和Hadoop到底誰更厲害？

要想搞清楚spark跟Hadoop到底誰更厲害，首先得明白spark到底是什麼鬼。經過之前的介紹大家應該非常瞭解什麼是Hadoop了（不瞭解的點選這裡：白話大資料 | hadoop究竟是什麼鬼），簡單的說：Hadoop是由HDFS分散式檔案系統和MapReduce程式設計模型等部分組成的分散式系統架構。而Sp

MongoDB DBA 實踐5-----複製集叢集的資料同步和故障轉移

（1）複製集叢集的資料同步 1》主節點資料庫test，在其中goods集合中加入一個文件。 2》在副節點中檢視注意：SECONDARY是不允許讀寫的，要使用rs.slaveOk()獲得讀寫許可權（2）故障轉移 1》故障1：副節點宕機

叢集間動態擴充套件和刪除hdfs的datanode和hbase的regionserver

如果你既要增加節點，又要刪除節點呢，我推薦的順序是：新增datanode，新增regionserver，停掉regionserver ，停掉datanode。如果你單獨的增加或者移出呢，順序就是上面拆開的就行啦。如果你新增機器呢，新增datanode，新增regionser

叢集間資料遷移報錯

[[email protected] ~]$ hadoop distcp -update /user/hive/warehouse/cslc.db/ hdfs://172.26.xx.xx:8020/user/hive/warehouse/cslc.db/18/12/24 10:27:06 ERRO

大資料概念和Hadoop基本介紹

開始學習大資料，一步一個腳印，好好堅持下去！大資料概述1.大資料特徵第一個，volume（量），大資料第一個基礎是它的資料量要大；第二個，velocity（速度），大資料一個很重要的它必須是實時產生的，一個兩年以前很大的資料，在今天的時代裡面是不能夠被稱之為大資料的；第三個

函式間資料拷貝 stack overflow

完成程式，實現對陣列的降序排序 #include <stdio.h> void sort( ); int main() { int array[]={45，56，76，234，1，34，23，2，3}； //數字任//意給出 sort( ); return 0;

Hbase叢集間資料遷移方法總結

呵呵，今天花了一天的時間查資料做測試，略微的總結了一下hbase資料遷移的方法。一、需要在hbase叢集停掉的情況下遷移步驟：(1)執行hadoop distcp -f filelist "hdfs://new cluster ip:9000/hbasetest"

大資料_MapReduce和Hadoop的安裝與配置

谷歌的向量矩陣 MapReduce計算模型 java的序列化是實現Serializable介面(我如果想把一個java的物件作為inputStream和outputSt

java 執行緒間資料共享和android 執行緒間資料共享異同

3 import org.apache.http.HttpResponse; 4 import org.apache.http.client.HttpClient; 5 import org.apache.http.client.methods.HttpGet; 6 import org.apac

Hadoop小檔案處理

導讀 HDFS作為Hadoop生態系統的分散式檔案系統，設計是用來儲存海量資料，特別適合儲存TB、PB量級別的資料。但是隨著時間的推移或者處理程式的問題，HDFS上可能會存在大量的小檔案，進而消耗NameNode大量的記憶體，並且延長程

基於Hadoop Sequencefile的小檔案解決方案

基於Hadoop Sequencefile的小檔案解決方案一、概述小檔案是指檔案size小於HDFS上block大小的檔案。這樣的檔案會給hadoop的擴充套件性和效能帶來嚴重問題。首先，在HDFS中，任何block，檔案或者目錄在記憶體中均以物件的形式儲存，每個物件約佔150byte，如果有10

用Vue來進行移動Hybrid開發和客戶端間資料傳輸的一種方法

如果大家覺得有用，更多的模組請點選檢視即上一篇Vue 頁面狀態保持頁面間資料傳輸的一種方法,今天我們說說我們團隊是怎麼和客戶端進行互動。為什麼到了今天，還要提hybrid開發，就我所在團隊從中獲得的好處有：團隊較小、業務較重、迭代頻繁、需要緊急響應的團隊和專案比較適合用使用單頁應用技術

Hadoop叢集的搭建（虛擬機器準備，JDK和Hadoop安裝，Hadoop目錄結構）

目錄虛擬機器準備 JDK和Hadoop安裝 Hadoop的目錄結構：虛擬機器準備環境：一臺剛裝好的CentOS，操作如下： [[email protected] ~]# ifconfig 獲取當前主機的ip地址，然後使用shell登入，使用she

資料分析師眼中的大資料和Hadoop

一、前言大資料這個概念不用我提大家也聽過很多了，前幾年各種公開論壇、會議等場合言必及大資料，說出來顯得很時髦似的。有意思的是最近擁有這個待遇的名詞是“人工智慧/AI”，當然這是後話。眾所周知，大資料的發展是來源於Google三駕馬車，分別是： Google Fil

Windows 的java客戶端實現上傳檔案到Linux的Hadoop叢集上(注意ip和埠是否一致)

我這幾天一直在學大資料，處於入門階段，然後老師的視訊中教學有用windows的java客戶端上傳檔案到Linux的Hadoop叢集，但是這邊出BUG了一直上傳不上去，執行程式後一直沒反應。。。。弄了幾天（雖然這幾天在做前端專案~~~）然後問群裡的大佬，他們說應該是ip和埠

叢集間傳輸資料

#!/bin/bash # data train 1.0 # CREATED BY ZJF @2018-08-01 # source env source /etc/profile export JAVA_HOME=/home/work/soft/jdk1.7.0_55 # ar

大資料計算框架Hadoop, Spark和MPI

轉自：https://www.cnblogs.com/reed/p/7730338.html 今天做題，其中一道是請簡要描述一下Hadoop, Spark, MPI三種計算框架的特點以及分別適用於什麼樣的場景。一直想對這些大資料計算框架總結一下，只可惜太懶，一直拖著。今

叢集間資料拷貝和Hadoop存檔對於小檔案處理

Hadoop存檔

檢視歸檔

相關推薦