python使用hdfs3模組對hdfs進行操作詳解

阿新 • • 發佈：2020-06-08

之前一直使用hdfs的命令進行hdfs操作，比如：

hdfs dfs -ls /user/spark/
hdfs dfs -get /user/spark/a.txt /home/spark/a.txt #從HDFS獲取資料到本地
hdfs dfs -put -f /home/spark/a.txt /user/spark/a.txt #從本地覆蓋式上傳
hdfs dfs -mkdir -p /user/spark/home/datetime=20180817/
....

身為一個python程式設計師，每天操作hdfs都是在程式中寫各種cmd呼叫的命令，一方面不好看，另一方面身為一個Pythoner這是一個恥辱，於是乎就挑了一個hdfs3的模組進行hdfs的操作，瞬間就感覺優雅多了：

hdfs 官方API：https://hdfs3.readthedocs.io/en/latest/api.html

>>> from hdfs3 import HDFileSystem
#連結HDFS
>>> hdfs = HDFileSystem(host='localhost',port=8020)
>>> hdfs.ls('/user/data')
>>> hdfs.put('local-file.txt','/user/data/remote-file.txt')
>>> hdfs.cp('/user/data/file.txt','/user2/data')

#檔案讀取

#txt檔案全部讀取
>>> with hdfs.open('/user/data/file.txt') as f:
...  data = f.read(1000000)
#使用pandas讀取1000行資料
>>> with hdfs.open('/user/data/file.csv.gz') as f:
...  df = pandas.read_csv(f,compression='gzip',nrows=1000)

#寫入檔案

>>> with hdfs.open('/tmp/myfile.txt','wb') as f:
... f.write(b'Hello,world!')

#多節點連線設定

host = "nameservice1"
conf = {"dfs.nameservices": "nameservice1","dfs.ha.namenodes.nameservice1": "namenode113,namenode188","dfs.namenode.rpc-address.nameservice1.namenode113": "hostname_of_server1:8020","dfs.namenode.rpc-address.nameservice1.namenode188": "hostname_of_server2:8020","dfs.namenode.http-address.nameservice1.namenode188": "hostname_of_server1:50070","dfs.namenode.http-address.nameservice1.namenode188": "hostname_of_server2:50070","hadoop.security.authentication": "kerberos"
}
fs = HDFileSystem(host=host,pars=conf)

#API

hdfs = HDFileSystem(host='127.0.0.1',port=8020)
hdfs.cancel_token(token=None) #未知，求大佬指點
hdfs.cat(path) #獲取指定目錄或檔案的內容
hdfs.chmod(path,mode) #修改制定目錄的操作許可權
hdfs.chown(path,owner,group) #修改目錄所有者，以及使用者組
hdfs.concat(destination,paths) #將指定多個路徑paths的檔案，合併成一個檔案寫入到destination的路徑，並刪除原始檔（The source files are deleted on successful completion.成功完成後將刪除原始檔。）
hdfs.connect() #連線到名稱節點 這在啟動時自動發生。 LZ:未知作用，按字面意思，應該是第一步HDFileSystem(host='127.0.0.1',port=8020)發生的
hdfs.delegate_token(user=None)
hdfs.df() #HDFS系統上使用/空閒的磁碟空間
hdfs.disconnect() #跟connect()相反，斷開連線
hdfs.du(path,total=False,deep=False) #檢視指定目錄的檔案大小，total是否把大小加起來一個總數，deep是否遞迴到子目錄
hdfs.exists(path) #路徑是否存在
hdfs.get(hdfs_path,local_path,blocksize=65536) #將HDFS檔案複製到本地,blocksize設定一次讀取的大小
hdfs.get_block_locations(path,start=0,length=0) #獲取塊的物理位置
hdfs.getmerge(path,filename,blocksize=65536) #獲取制定目錄下的所有檔案，複製合併到本地檔案
hdfs.glob(path) #/user/spark/abc-*.txt 獲取與這個路徑相匹配的路徑列表
hdfs.head(path,size=1024) #獲取指定路徑下的檔案頭部分的資料
hdfs.info(path) #獲取指定路徑檔案的資訊
hdfs.isdir(path) #判斷指定路徑是否是一個資料夾
hdfs.isfile(path) #判斷指定路徑是否是一個檔案
hdfs.list_encryption_zones() #獲取所有加密區域的列表
hdfs.ls(path,detail=False) #返回指定路徑下的檔案路徑，detail檔案詳細資訊
hdfs.makedirs(path,mode=457) #建立檔案目錄類似 mkdir -p
hdfs.mkdir(path) #建立檔案目錄
hdfs.mv(path1,path2) #將path1移動到path2
open(path,mode='rb',replication=0,buff=0,block_size=0) #讀取檔案，類似於python的檔案讀取
hdfs.put(filename,path,chunk=65536,block_size=0) #將本地的檔案上傳到，HDFS指定目錄
hdfs.read_block(fn,offset,length,delimiter=None) #指定路徑檔案的offset指定讀取位元組的起始點，length讀取長度，delimiter確保讀取在分隔符bytestring上開始和停止
>>> hdfs.read_block('/data/file.csv',13) 
b'Alice,100\nBo'
>>> hdfs.read_block('/data/file.csv',13,delimiter=b'\n') 
b'Alice,100\nBob,200'
hdfs.rm(path,recursive=True) #刪除指定路徑recursive是否遞迴刪除
hdfs.tail(path,size=1024) #獲取 檔案最後一部分的資料
hdfs.touch(path) #建立一個空檔案
hdfs.walk(path) #遍歷檔案樹

補充知識：HDFS命令批量建立資料夾和檔案

批量建立測試資料夾：

hadoop fs -mkdir -p /user/hivedata/temp/201912311001/d={27..30}/h={10..17}/m5={5,15,25}/

批量建立測試檔案：

hadoop fs -touchz /user/hivedata/temp/201912311001/d={27..30}/h={10..17}/m5={5,25}/{0..5}.orc

最終效果：

hadoop fs -ls -R /user/hivedata/

python使用hdfs3模組對hdfs進行操作詳解

以上這篇python使用hdfs3模組對hdfs進行操作詳解就是小編分享給大家的全部內容了，希望能給大家一個參考，也希望大家多多支援我們。

python使用hdfs3模組對hdfs進行操作詳解

之前一直使用hdfs的命令進行hdfs操作，比如： hdfs dfs -ls /user/spark/ hdfs dfs -get /user/spark/a.txt /home/spark/a.txt #從HDFS獲取資料到本地

Golang中如何對MySQL進行操作詳解

前言 Golang官方並沒有提供資料庫驅動，但通過database/sql/driver包來提供了實現驅動的標準介面。可以在Github上找到很多開源的驅動。

使用Python爬蟲庫BeautifulSoup遍歷文件樹並對標籤進行操作詳解

下面就是使用Python爬蟲庫BeautifulSoup對文件樹進行遍歷並對標籤進行操作的例項，都是最基礎的內容

使用nodeJS中的fs模組對檔案及目錄進行讀寫,刪除,追加,等操作詳解

fs概述檔案 I/O 是由簡單封裝的標準 POSIX 函式提供的。 nodeJS中通過 require(\'fs\') 使用fs模組。所有的方法都有非同步和同步的形式。

django框架使用views.py的函式對錶進行增刪改查內容操作詳解【models.py中表的建立、views.py中函式的使用，基於物件的跨表查詢】

本文例項講述了django框架使用views.py函式對錶進行增刪改查內容操作。分享給大家供大家參考，具體如下：

使用imp和exp命令對Oracle資料庫進行匯入匯出操作詳解

這裡匯入匯出路徑都在D盤下，預設檔名為：example.dmp exp方式匯出資料相關引數項如下：

在Java與Kotlin之間如何進行互操作詳解

前言目前kotlin是谷歌首推的開發Android的語言，但由於歷史原因，我們絕大部分專案依舊還是以Java為主的，也就是說存在Java和Kotlin兩種語言同時開發的情況。

MongoDB如何對陣列中的元素進行查詢詳解

前言 MongoDB是文件型資料庫，每個文件（doc）表示資料的一項記錄。相比關係型DB的row只能使用簡單的資料型別，doc能夠使用複雜的資料型別：內嵌doc，陣列。MongoDB的陣列是一系列元素的集合，使用中括號 [] 表示陣列

Python FtpLib模組應用操作詳解

本文例項講述了Python FtpLib模組應用操作。分享給大家供大家參考，具體如下：

node.JS二進位制操作模組buffer物件使用方法詳解

在ES6引入TypedArray之前，JavaScript語言沒有讀取或操作二進位制資料流的機制。Buffer類被引入作為Nodejs的API的一部分，使其可以在TCP流和檔案系統操作等場景中處理二進位制資料流。現在TypedArray已經被新增進ES6

對tensorflow中cifar-10文件的Read操作詳解

前言在tensorflow的官方文件中得卷積神經網路一章，有一個使用cifar-10圖片資料集的實驗，搭建卷積神經網路倒不難，但是那個cifar10_input檔案著實讓我費了一番心思。配合著官方文件也算看的七七八八，但是中間還是

PHP使用gearman進行非同步的郵件或簡訊傳送操作詳解

本文例項講述了PHP使用gearman進行非同步的郵件或簡訊傳送操作。分享給大家供大家參考，具體如下：

express+mongoose實現對mongodb增刪改查操作詳解

本文例項講述了express+mongoose實現對mongodb增刪改查操作。分享給大家供大家參考，具體如下：

javascript sort()對陣列中的元素進行排序詳解

javascript sort()可以對陣列中的元素進行排序，語法格式：arrayObject.sort(sortby) arrayObject是陣列物件，sortby為可選項，用來確定元素順序的函式的名稱，如果這個引數被省略，那麼元素將按照ASCII字元順序進

c++ STL之list對結構體的增加,刪除,排序等操作詳解

對STL中的list進一步學習,程式設計過程中對結構體的操作很多。全部程式碼如下：

《鬼滅之刃火之神血風譚》新手圖文教程操作詳解及對戰技巧

《鬼滅之刃火之神血風譚》是一款漫改格鬥遊戲，在單人遊玩模式中，將能夠親自體驗動畫《鬼滅之刃》所描繪的故事。在對戰模式中，能夠自由選擇2名在動畫本篇登場的角色進行2V2對決。簡單的操作體驗充滿爽快感的遊玩，

mysql事件之修改事件（ALTER EVENT）、禁用事件（DISABLE）、啟用事件（ENABLE）、事件重新命名及資料庫事件遷移操作詳解

本文例項講述了mysql事件之修改事件（ALTER EVENT）、禁用事件（DISABLE）、啟用事件（ENABLE）、事件重新命名及資料庫事件遷移操作。分享給大家供大家參考，具體如下：

mysql檢視之確保檢視的一致性（with check option）操作詳解

本文例項講述了mysql檢視之確保檢視的一致性（with check option）操作。分享給大家供大家參考，具體如下：

flask框架配置mysql資料庫操作詳解

本文例項講述了flask框架配置mysql資料庫操作。分享給大家供大家參考，具體如下：

關於pymysql模組的使用以及程式碼詳解

pymysql模組的使用查詢一條資料fetchone() from pymysql import * conn = connect( host=\'127.0.0.1\',port=3306,user=\'root\',password=\'123456\',database=\'itcast\',charset=\'utf8\')

python使用hdfs3模組對hdfs進行操作詳解

相關推薦