Python_解壓zip以及upload到hdfs

阿新 • • 發佈：2021-11-27

pyhdfs

壓縮

使用zipfile解壓和
使用linux自帶的zip

示例

#!/usr/bin/env python3
# -*- coding: UTF-8 -*-

import pyhdfs
import zipfile
import os
import os.path
import pandas as pd

def unzip_file(path_pair):
    file = path_pair[0]
    target = path_pair[1]
    print("正在解壓%s,解壓目錄%s"%(file,target))
    try:
        with zipfile.ZipFile(file,mode="a") as f:
            f.extractall(target)  # 將檔案解壓到指定目錄
    except Exception as e:
        print("異常:%s"%e)
    finally:
        f.close()

def unzip_file_gbk(zip_path_pair,target_dir):
    print("正在解壓%s,解壓目錄%s"%(zip_path_pair,target_dir))
    try:
        with zipfile.ZipFile(zip_path_pair,mode="a") as f:
            for num, f_name in enumerate(f.namelist()):
                new_f_name = f_name.encode("cp437").decode("gbk")
                f.extract(f_name,path=target_dir)
                os.rename(os.path.join(target_dir,f_name), os.path.join(target_dir,new_f_name))
    except Exception as e:
        print("異常:%s"%e)
    finally:
        f.close()


def unzip_file(src_leaf_dir,target_dir):
    zip_file_name = []
    [zip_file_name.append(os.path.join(src_leaf_dir, file_name)) for file_name in os.listdir(src_leaf_dir)
     if file_name.lower().endswith("zip")]
    for num, zip_file in  enumerate(zip_file_name):
        datset_name = os.path.split(zip_file)[-1].split(".")[0]
        print(num,datset_name)
        unzip_file_gbk(zip_file,target_dir)

def get_dir_stats(file_dir):
    result = {}
    for dirpath,dirnames,filenames in os.walk(file_dir):
        file_count = 0
        for file in filenames:
            file_count = file_count + 1
        result_sig = {dirpath:file_count}
        result.update(result_sig)
    return result

def get_satify_stats_dir(unzip_target_dir):
    result_list =[]
    for num, zip_file in  enumerate(os.listdir(unzip_target_dir)):
        datset_name = zip_file
        new_dir = os.path.join(unzip_target_dir,datset_name)
        file_dir_nm = get_dir_stats(new_dir)
        # max函式要求第一個引數是可迭代內容，這裡我們的dict
        #第二個引數是一個函式，對迭代的每一項進行處理，將處理 後的結果統一起來進行比較大小，
        # 返回大的一項的原資料
        max_key = max(file_dir_nm, key= file_dir_nm.get)
        sig_result = [zip_file,max_key,file_dir_nm.get(max_key)]
        result_list.append(sig_result)
    return result_list

if __name__ == "__main__":
    # client = pyhdfs.HdfsClient(hosts="test",user_name="test")
    # 解壓縮
    # zip_src_leaf_dir= r"D:\data\test\01"
    # unzip_target_dir = r'D:\data\test\data_unzip'
    # unzip_file(zip_src_leaf_dir,unzip_target_dir)
    unzip_dir = r'D:\data\test\data_unzip'
    src_dest = get_satify_stats_dir(unzip_dir)
    meta_file_nm =r"D:\data\test\group_result_01.txt"
    meta_df = pd.read_csv(meta_file_nm,sep="\t",encoding="utf8")
    #satisfy_df = meta_df[meta_df["集"] == src_dest[0]]
    file_res_ls =[]
    for set_data in src_dest:
        satisfy_df = meta_df[meta_df["集"] == set_data[0]]
        satify_result = (set_data[0],set_data[1],set_data[2],satisfy_df["hdfs_dir"].values[0],satisfy_df["new_label"].values[0])
        print(satify_result)
        file_res_ls.append(satify_result)
    res_df = pd.DataFrame(file_res_ls,columns=["data_nm","src_dir","cnt","hdfs_dir","new_label"])
    res_df.to_csv(r"D:\data\test\group_result_hdfs.txt",index=False,header=True,sep="\t")
    #     out.write("\t".join(satify_result) +"\n")
    #     file_result_all.append(satify_result)
    # out.close()
    # print(file_result_all)

HDFS檔案上傳

 使用自帶的工具
 使用pyhdfs

程式碼示例

import pyhdfs
import os.path


if __name__ == "__main__":
    client = pyhdfs.HdfsClient(hosts="test",user_name="test")
    file_nm = r"G:\data\test\group_result_hdfs.txt"
    with open(file=file_nm,mode='r',encoding="utf8") as f:
    # 使用next函式 跳過首行
        first_line = next(f)
        for file_num, data in enumerate(f):
            steList = data.strip().replace("\r","").replace("\n","").split("\t")
            local_dir = steList[1]
            hdfs_dir = steList[3]
            if not client.exists(hdfs_dir) :
                print("建立資料夾",hdfs_dir)
                client.mkdirs(hdfs_dir)
            if client.exists(hdfs_dir):
                print("upload",local_dir,hdfs_dir)
                for num,local_file in enumerate(os.listdir(local_dir)):
                    local_src_jpg =   os.path.join(local_dir,local_file)
                    hdfs_src_jpg =  hdfs_dir +"/"+local_file
                    client.copy_from_local(local_src_jpg,hdfs_src_jpg)
                    print(file_num,num,local_src_jpg,hdfs_src_jpg)
            else:
                print(client.exists(hdfs_dir))
            print("done")

參考

 https://pyhdfs.readthedocs.io/en/latest/pyhdfs.html   
 python操作hdfs https://www.cnblogs.com/wangbin2188/p/14591230.html

Python_解壓zip以及upload到hdfs

pyhdfs 壓縮使用zipfile解壓和使用linux自帶的zip 示例 #!/usr/bin/env python3 # -*- coding: UTF-8 -*-

ruby 解壓zip檔案方法以及遇到的問題

wiki： ruby程式碼： def self.unzip_file zip_file_path if Rails.env == \"development\" self.window_unzip_file zip_file_path

解壓zip檔案到指定目錄

程式碼很簡單，但要注意解壓的時候排除__MACOSX目錄 /** * 解壓zip檔案到指定目錄

python解壓zip包中文亂碼解決方式

亂碼得原因：由於ZipFile模組匯出遇到中文解碼不對，windows上會出現，linux是否會出現不知道沒測試過。

如何基於java實現解壓ZIP TAR等檔案

　　java實現對常用.ZIP ， .TAR， .TAR.BZ2， .BZ2 ，.TAR.GZ ，.GZ格式檔案的解壓。　　首先需要引入maven依賴，這裡使用的是Apache的壓縮工具包common-compress，改工具包支援解壓、壓縮，此程式碼中我列舉出一個

Centos 7修改防火牆、時間與網路時間同步、解壓zip包、修改系統時間

一、防火牆的開啟、關閉、禁用命令（1）設定開機啟用防火牆：systemctl enable firewalld.service 使用此命令需要重啟後才會生效。

util之解壓ZIP工具類

package com.***.tools; import java.io.BufferedOutputStream; import java.io.File; import java.io.FileOutputStream;

python解壓zip包中文亂碼解決方法

亂碼得原因：由於ZipFile模組匯出遇到中文解碼不對，windows上會出現，linux是否會出現不知道沒測試過。

linux 換國內映象源和壓縮解壓zip檔案

技術標籤：Linux Linux 換國內映象源備份原來的sources.list檔案 sudo cp /etc/apt/sources.list /etc/apt/sources.list.bak修改sources.list檔案 sudo gedit /etc/apt/sources.list新增阿里、中科大映象源更新

解壓zip形式安裝MYSQL報錯：“MYSQL 服務無法啟動“的3534問題

文章來源：https://blog.csdn.net/assjaa/article/details/89707427 解決方法： 1、環境變數PATH新增（例如：D:\\Program Files (x86)\\mysql-8.0.16-winx64\\bin）；此時解壓目錄下是沒有data資料夾的，不要

activiti 解壓zip java.lang.IllegalArgumentException: MALFORMED 錯誤

工作流匯入 @Override public int create(MultipartFile file, String name, String category) { try{ if (file != null) {

Linux伺服器中解壓zip包

技術標籤：後端linuxzip Linux伺服器中解壓zip包 Linux下解壓zip檔案，就一個命令列。 Unzip 【檔名】示例：

ubuntu下解壓zip壓縮包檔名亂碼問題

技術標籤：Ubuntu/CentOS使用當把windows中的zip壓縮包放到ubuntu中。如果滑鼠右鍵直接解壓，或者unzip xxxx.zip命令解壓，這樣解壓之後檔名字會出現亂碼。用下面方法解決亂碼問題。

Python解壓zip檔案亂碼解壓失敗報錯zipfile.BadZipFile解決方法

技術標籤：Bug 報錯問題 zip_file = zipfile.ZipFile(zip_file)，zip_file.extract()解壓裡面檔案時報錯如下zipfile.BadZipFile: File name in directory \'╡Ñ╥╗└┤╘┤▓╔╣║╜ß╣√╣&frac

java 壓縮包遍歷解壓 zip 和 7z 指定格式檔案

import lombok.extern.slf4j.Slf4j; import org.apache.commons.compress.archivers.sevenz.SevenZArchiveEntry;

蘋果Mac快速解壓 zip 檔案的兩種方法

蘋果Mac快速解壓 zip 檔案的兩種方法 ZIP檔案格式是一種資料壓縮和文件儲存的檔案格式，通常使用字尾名“.zip”。當前，ZIP格式屬於幾種主流的壓縮格式之一，已得到廣泛的使用。Mac OS和流行的Linux作業系統也對

linux unzip 解壓 zip 檔案

tar 解壓.zip檔案報錯解決一例： gzip: stdin has more than one entry--rest ignored 折騰完了ubuntu，下載一個adt來工作和學習，下載好了發現是一個.zip格式的壓縮包，而不是常見.tar.gz剛用了幾次tar命令，正好試

Java原生解壓Zip流報MALFORMED錯

壓縮包內部，若內部節點（檔案或目錄）名稱包含非拉丁文，跨平臺傳遞時，比如壓縮方用的utf-8，接收方用的是gbk，Jdk原生解壓流解析就會報錯，如下：

分享一下操作檔案得常用方法可以直接拿來用哦（讀取檔案，解壓Zip，Rar）

/// <summary>/// 讀取檔案/// </summary>/// <param name=\"Path\">檔案路徑</param>/// <param name=\"encode\">編碼</param>/// <returns></returns>public st

Python壓縮解壓zip檔案

匯入相關模組 import os import shutil import zipfile from os.path import join, getsize 一、python壓縮指定資料夾

Python_解壓zip以及upload到hdfs

壓縮

示例

HDFS檔案上傳

程式碼示例

參考

相關推薦