讀取hdfs檔案上的第二個塊的資料

阿新 • • 發佈：2018-12-24

package com.ghgj.cn.zy;

import java.io.IOException;
import java.net.URI;
import java.net.URISyntaxException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.BlockLocation;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache 
.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.LocatedFileStatus;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.fs.RemoteIterator;
import org.apache.hadoop.io.IOUtils;

public class InputSecondBlock {
    //讀取第二個塊的資料，並輸出到hdfs上
    public static void main(String[] args) throws IOException, InterruptedException, URISyntaxException {
        Configuration conf = new Configuration(); 

        FileSystem fs = FileSystem.get(new URI("hdfs://hadoop01:9000"), conf, "hadoop");
        //資料路徑
        Path p = new Path("/tt/aa/ff.txt");
        //listfiles中可以獲取到塊的資訊
        RemoteIterator<LocatedFileStatus> listFiles = fs.listFiles(p, false);
            LocatedFileStatus next = listFiles.next 
();
            BlockLocation[] bl = next.getBlockLocations();
            long offset = bl[1].getOffset();//獲取偏移量
            long length = bl[1].getLength();
        //輸入流
        FSDataInputStream in = fs.open(p);
        //設定偏移量
        in.seek(offset);
        //輸出流
        FSDataOutputStream out = fs.create(new Path("/test01"));
        IOUtils.copyBytes(in, out, length, true);
    }

}

讀取hdfs檔案上的第二個塊的資料

package com.ghgj.cn.zy; import java.io.IOException; import java.net.URI; import java.net.URISyntaxException; import org.apache.hadoop.conf.Confi

Hadoop 檢視某個檔案分成幾個塊，分別在那臺機架的哪個機器上

hadoop fsck /usr/input/a.txt -files -blocks -locations -racks [[email protected] sbin]# hadoop

IDEA編寫wordcount，讀取hdfs檔案，執行在Spark叢集例子

前期：已安裝好hadoop叢集和spark叢集，hadoop2.6.5，spark2.3.1，jdk1.8. scala2.1.0 第一步：在idea編寫scala程式，並且要打包（pom檔案的build標籤中配置好maven打包程式碼，可以定義主類也可以在提交的時候再定義）{補充：可以在s

SprinMVC轉發、重定向、收集date資料、自定義轉換器、檔案上傳、json資料轉換

1.專案模組圖 2.完成SpringMVC的基本搭建 pom.xml（下載jar包的檔案） <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.

github二次上傳檔案，分支檔案上傳，刪除資料夾

看了太多GitHub入門教程，終於搞通了，樂在分享。部分參考：第一個GitHub專案https://blog.csdn.net/wangyan_z/article/details/79148059 git上傳本地分支到github專案分支 https://blog.csdn.

基於GDAL庫，讀取.grd檔案（以海洋地形資料為例）C++版

技術背景　　海洋地形資料主要是通過美國全球地形起伏資料（GMT）獲得，資料格式為grd（GSBG）二進位制資料，開啟軟體通過是Surfer軟體，surfer軟體可進行資料的編輯處理，以及進一步的視覺化表達等功能操作；由於Surfer軟體不支援二次開發，沒有提供相應的SDK供開發者進行使用，所以這一切只能通

java Api 讀取HDFS檔案內容

package dao; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.*; import java.io.*; public class HDFSApi { /** * 讀取檔案內

HDFS檔案上傳流程

首先使用者即客戶端想要上傳檔案，就先要給namenode發個請求，告訴它說我要上傳檔案了（即寫資料），然後namenode會返回一個響應，這個響應是namenode根據自身情況，比如會先查一下namenode裡

HDFS（五）—— HDFS 檔案上傳的過程

一、客戶端傳送請求客戶端執行上傳檔案的命令：hdfs dfs -put a.avi /movie。二、DFSClient.java 建立 DistributedFileSystem 請求首先被 DFSClient.java 這個類獲取到，由該類建立 Distribu

C#中讀取EXCEL檔案的第二種方法

using NPOI.HSSF.UserModel; using System; using System.IO; using NPOI.SS.UserModel; using NPOI.XSSF.UserModel; namespace ReadExcel { class Program

第二個頁面資料的展示（資料庫）

myHelper = new MyHelper(MyApp.getContext()); database = myHelper.getReadableDatabase(); //給資料庫新增資料 ContentValues values = new

hdfs檔案上傳及下載的流程

1.檔案上傳的流程 1）客戶端向namenode傳送檔案上傳的請求 2）namenode會進行一系列的檢查： - 父目錄是否存在 - 檔案是否已經上傳 - 是否有檔案上傳許可權等 - 如果檢查沒問題，則會發送允許上傳的響應 3）客戶端傳送真正的上傳請求包含重要的資訊

Spark HadoopRDD讀取HDFS檔案

Spark HadoopRDD讀取HDFS檔案更多資源 SPARK 原始碼分析技術分享(bilibilid視訊彙總套裝視訊): https://www.bilibili.com/video/av37442139/ github: https://github.com/open

python無法讀取hdfs檔案的問題:requests.exceptions.ConnectionError: HTTPConnectionPool

1.問題一描述：在用python的hdfs庫操作HDFS時，可以正常的獲取到hdfs的檔案目錄 from hdfs import * client = Client("http://10.0.30.9:50070") print(client.list('/')) ['t

最簡單逐行讀取hdfs檔案

val arrayRdd = spark.sparkContext.textFile("/dmLink/domain/").collect() for(myDomain <- arrayRdd){ println("*********************************" +

Ftp實現自動讀取本地檔案上傳到伺服器

需求：最近有個需求，類似需要將pre環境的oracle檔案，放到prd環境中hive叢集中儲存，但是因為資料來源和資料儲存節點不在一個環境中，所以無法通訊配置實現資料的直接傳輸。解決方案： 1.寫指令碼自動將oracle中資料寫入到本地指定資料夾。 2.通過

poi：讀取excel檔案模板並填入資料（合併sheet）並且下載

今天做一個到處excel的功能，涉及到多表查詢，然後讀取excel模板檔案並寫入查詢到的資料，並且要合併sheet，合併單元格，下載等功能，附上程式碼： Conreoller類: /** * 匯出excel */ public ModelAnd

centos 6.3 如何修改/etc/samba/smb.conf 檔案設定多個共享資料夾，一些是公開的，一些是需要認證的

第一節、samba是幹什麼的？它有什麼用？ Samba（SMB是其縮寫）是一個網路伺服器，它是Linux作為本地伺服器最重要的一個服務，用於Linux和Windows共享檔案之用；Samba可以用於Windows和Linux之間的共享檔案，也一樣用於Linux和Linux之間的共享檔案；不過對於L

HDFS操作實驗（hdfs檔案上傳、使用JavaAPI判斷檔案存在，檔案合併）

此部落格為博主學習總結，內容為博主完成本週大資料課程的實驗內容。實驗內容分為兩部分。 1. 在分散式檔案系統中建立檔案並用shell指令檢視； 2. 利用Java API程式設計實現判斷檔案是否存在和合並兩個檔案的內容成一個檔案。感謝廈門大學資料庫

hadoop怎麼分割寫入的檔案為多個塊的，一個map對應一個split分片嗎？split與block的關係

1，在介紹hadoop寫檔案的時候我們經常會說首先分割檔案為多個塊；那麼是怎麼分割的呢？這裡其實不要有過的糾結，這裡的塊是block，是hdfs中切塊的大小，屬於物理劃分，預設64M，在hadoop-default.xml配置中有體現：<property>

讀取hdfs檔案上的第二個塊的資料

相關推薦