1. 程式人生 > 程式設計 >python讀取hdfs並返回dataframe教程

python讀取hdfs並返回dataframe教程

不多說,直接上程式碼

from hdfs import Client
import pandas as pd
 
HDFSHOST = "http://xxx:50070"
FILENAME = "/tmp/preprocess/part-00000" #hdfs檔案路徑
COLUMNNAMES = [xx']
 
def readHDFS():
'''
讀取hdfs檔案
 
Returns:
df:dataframe hdfs資料
'''
client = Client(HDFSHOST)
# 目前讀取hdfs檔案採用方式:
# 1. 先從hdfs讀取二進位制資料流檔案
# 2. 將二進位制檔案另存為.csv
# 3. 使用pandas讀取csv檔案
with client.read(FILENAME) as fs:
content = fs.read()
s = str(content,'utf-8')
file = open("data/tmp/data.csv","w")
file.write(s)
df = pd.read_csv("data/tmp/data.csv",names=COLUMNNAMES)
return df

補充知識:Python連線HDFS實現檔案上傳下載及Pandas轉換文字檔案到CSV

1. 目標

通過hadoop hive或spark等資料計算框架完成資料清洗後的資料在HDFS上

爬蟲和機器學習在Python中容易實現

在Linux環境下編寫Python沒有pyCharm便利

需要建立Python與HDFS的讀寫通道

2. 實現

安裝Python模組pyhdfs

版本:Python3.6,hadoop 2.9

讀檔案程式碼如下

from pyhdfs import HdfsClient
client=HdfsClient(hosts='ghym:50070')#hdfs地址
res=client.open('/sy.txt')#hdfs檔案路徑,根目錄/
for r in res:
  line=str(r,encoding='utf8')#open後是二進位制,str()轉換為字串並轉碼
  print(line)

寫檔案程式碼如下

from pyhdfs import HdfsClient
client=HdfsClient(hosts='ghym:50070',user_name='hadoop')#只有hadoop使用者擁有寫許可權
str='hello world'
client.create('/py.txt',str)#建立新檔案並寫入字串

上傳本地檔案到HDFS

from pyhdfs import HdfsClient
client = HdfsClient(hosts='ghym:50070',user_name='hadoop')
client.copy_from_local('d:/pydemo.txt','/pydemo')#本地檔案絕對路徑,HDFS目錄必須不存在

3. 讀取文字檔案寫入csv

Python安裝pandas模組

確認文字檔案的分隔符

# pyhdfs讀取文字檔案,分隔符為逗號,from pyhdfs import HdfsClient
client = HdfsClient(hosts='ghym:50070',user_name='hadoop')
inputfile=client.open('/int.txt')
# pandas呼叫讀取方法read_table
import pandas as pd
df=pd.read_table(inputfile,encoding='gbk',sep=',')#引數為原始檔,編碼,分隔符
# 資料集to_csv方法轉換為csv
df.to_csv('demo.csv',index=None)#引數為目標檔案,是否要索引

以上這篇python讀取hdfs並返回dataframe教程就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支援我們。