python讀取hdfs並返回dataframe教程

阿新 • • 發佈：2020-06-07

不多說，直接上程式碼

from hdfs import Client
import pandas as pd
 
HDFSHOST = "http://xxx:50070"
FILENAME = "/tmp/preprocess/part-00000" #hdfs檔案路徑
COLUMNNAMES = [xx']
 
def readHDFS():
'''
讀取hdfs檔案
 
Returns：
df:dataframe hdfs資料
'''
client = Client(HDFSHOST)
# 目前讀取hdfs檔案採用方式：
# 1. 先從hdfs讀取二進位制資料流檔案
# 2. 將二進位制檔案另存為.csv
# 3. 使用pandas讀取csv檔案
with client.read(FILENAME) as fs:
content = fs.read()
s = str(content,'utf-8')
file = open("data/tmp/data.csv","w")
file.write(s)
df = pd.read_csv("data/tmp/data.csv",names=COLUMNNAMES)
return df

補充知識：Python連線HDFS實現檔案上傳下載及Pandas轉換文字檔案到CSV

1. 目標

通過hadoop hive或spark等資料計算框架完成資料清洗後的資料在HDFS上

爬蟲和機器學習在Python中容易實現

在Linux環境下編寫Python沒有pyCharm便利

需要建立Python與HDFS的讀寫通道

2. 實現

安裝Python模組pyhdfs

版本:Python3.6,hadoop 2.9

讀檔案程式碼如下

from pyhdfs import HdfsClient
client=HdfsClient(hosts='ghym:50070')#hdfs地址
res=client.open('/sy.txt')#hdfs檔案路徑,根目錄/
for r in res:
  line=str(r,encoding='utf8')#open後是二進位制,str()轉換為字串並轉碼
  print(line)

寫檔案程式碼如下

from pyhdfs import HdfsClient
client=HdfsClient(hosts='ghym:50070',user_name='hadoop')#只有hadoop使用者擁有寫許可權
str='hello world'
client.create('/py.txt',str)#建立新檔案並寫入字串

上傳本地檔案到HDFS

from pyhdfs import HdfsClient
client = HdfsClient(hosts='ghym:50070',user_name='hadoop')
client.copy_from_local('d:/pydemo.txt','/pydemo')#本地檔案絕對路徑,HDFS目錄必須不存在

3. 讀取文字檔案寫入csv

Python安裝pandas模組

確認文字檔案的分隔符

# pyhdfs讀取文字檔案,分隔符為逗號,from pyhdfs import HdfsClient
client = HdfsClient(hosts='ghym:50070',user_name='hadoop')
inputfile=client.open('/int.txt')
# pandas呼叫讀取方法read_table
import pandas as pd
df=pd.read_table(inputfile,encoding='gbk',sep=',')#引數為原始檔,編碼,分隔符
# 資料集to_csv方法轉換為csv
df.to_csv('demo.csv',index=None)#引數為目標檔案,是否要索引

以上這篇python讀取hdfs並返回dataframe教程就是小編分享給大家的全部內容了，希望能給大家一個參考，也希望大家多多支援我們。

python讀取hdfs並返回dataframe教程

不多說，直接上程式碼 from hdfs import Client import pandas as pd HDFSHOST = \"http://xxx:50070\"

opencv-python 讀取影象並轉換顏色空間例項

我就廢話不多說了，直接上程式碼吧！ #-*- encoding:utf-8 -*- \'\'\' python 繪製顏色直方圖

python 讀取資料庫並繪圖的例項

1.安裝相應的庫檔案 sudo apt-get install python-mysqldb 2.資料庫操作 import MySQLdb db = MySQLdb.connect(“localhost”,“root”,“pwd”,“dbname”,charset=\'utf8\' )

python讀取hdfs上的parquet檔案方式

在使用python做大資料和機器學習處理過程中，首先需要讀取hdfs資料，對於常用格式資料一般比較容易讀取，parquet略微特殊。從hdfs上使用python獲取parquet格式資料的方法(當然也可以先把檔案拉到本地再讀取也可以)：

Python讀取yaml檔案的詳細教程

yaml簡介 1.yaml [ˈjæməl]: Yet Another Markup Language ：另一種標記語言。yaml 是專門用來寫配置檔案的語言，非常簡潔和強大,之前用ini也能寫配置檔案，看了yaml後，發現這個更直觀，更方便，有點

python3:excel操作之讀取資料並返回字典 + 寫入的案例

excel寫入資料，使用openpyxl庫 class WriteExcel: def __init__(self,path): self.path = path def write_excel(self,sheet_name,content):

Python讀取影象並顯示灰度圖的實現

python讀取影象原圖: import cv2 # 利用opencv讀取影象 import numpy as np # 利用matplotlib顯示影象

python讀取文字並將指定內容逐行寫入txt檔案儲存

技術標籤：檔案處理python大資料文字檔案示例如下：需求：篩選所有後綴是“ing”的詞，並將其儲存到新的txt檔案中。程式碼如下：

Python讀取檔案並寫入ODPS

前提：　　將本地csv檔案，用pandas讀取，並進行資料ETL，最後匯入到ODPS表中。

Python實現批量讀取圖片並存入mongodb資料庫的方法示例

本文例項講述了Python實現批量讀取圖片並存入mongodb資料庫的方法。分享給大家供大家參考，具體如下：

基於python讀取.mat檔案並取出資訊

這篇文章主要介紹了基於python讀取.mat檔案並取出資訊,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Python imageio讀取視訊並進行編解碼詳解

讀視訊和寫視訊一直由於編解碼的問題給程式設計師造成很多麻煩。對此進行了一些探索。用Python讀取視訊有兩種主要方法，分別是基於imageio庫和OpenCV，其中OpenCV加上ffmpeg的安裝編譯很麻煩，推薦大家使用第一種方法

python實現的讀取網頁並分詞功能示例

本文例項講述了python實現的讀取網頁並分詞功能。分享給大家供大家參考，具體如下：

解決python 讀取excel時日期變成數字並加.0的問題

excel 檔案內容如下: 讀取excel內容: import xlrd from datetime import datetime from xlrd import xldate_as_datetime,xldate_as_tuple

python讀取raw binary圖片並提取統計資訊的例項

用python語言讀取二進位制圖片檔案，並提取非零資料統計資訊（例如：max，min，skewness and kurtosis）

Python使用Numpy模組讀取檔案並繪製圖片

程式碼如下 import pandas as pd import matplotlib.pyplot as plt import numpy as np data = np.loadtxt(\'distance.txt\',dtype = np.int)

Python讀取Excel資料並生成圖表過程解析

一、需求背景自己一直在做一個周基金定投模擬，每週需要新增一行資料，並生成圖表。以前一直是用Excel實現的。但資料行多後，圖表大小調整總是不太方便，一般只能通過縮放比例解決。

python讀取影象矩陣檔案並轉換為向量例項

假設影象矩陣大小為32×32，將其轉換為向量，首先建立1×1024的NumPy陣列，然後開啟給定的檔案，迴圈讀出檔案的前32行，並將每行的頭32個字元值儲存在NumPy陣列中

007.PGSQL-python讀取txt檔案，將資料轉化為dataFrame,dataFrame資料插入到pgsql; dataframe去掉索引，指定列為索引；python讀取pgsql資料,讀取資料庫表導成excel

python讀取txt檔案，將資料轉化為dataFrame,dataFrame資料插入到pgsql 1.pd.io.sql.to_sql(dataframe,\'table_name\',con=conn,schema=\'w_analysis\',if_exists=\'append\')

Python 讀取word中表格資料、讀取word修改並儲存、替換word中詞彙、讀取word中每段內容，讀取一段話中相同樣式內容，理解Document中run

1 from docx import Document 2 path = r\'D:\\pywork\\12\'# word資訊表所在資料夾 3 w = Document(path + \'/\' + \'word資訊表.docx\') #讀取word

python讀取hdfs並返回dataframe教程

相關推薦