分別用Shell和Python遍歷查詢Hdfs檔案路徑

阿新 • • 發佈：2019-02-12

1、使用Shell
/Users/nisj/PycharmProjects/BiDataProc/getOssFileForDemo/getHdfsFilePath.sh

#!/usr/bin/env bash

for file_path in `hadoop dfs -ls /tmp/oss_access/ | awk  -F ' '  '{print $8}' `
   do
     hadoop dfs -ls $file_path | awk  -F ' '  '{print $8}'
   done

2、使用Python
/Users/nisj/PycharmProjects/BiDataProc/getOssFileForDemo/getHdfsFilePath.py

# -*- coding=utf-8 -*-
import os
import re

for dir_path in os.popen("""hadoop dfs -ls /tmp/oss_access/ | awk  -F ' '  '{print $8}'""").readlines():
    dir_path = dir_path.strip()
    if len(dir_path) != 0:
        x_dir_path = dir_path.replace('/','#')
        output = open('txt_path:{x_dir_path}.txt'.format(x_dir_path=x_dir_path), 'w+')

        file_path_list = os.popen("""hadoop dfs -ls %s | awk  -F ' '  '{print $8}' """ % (dir_path)).readlines()
        output.writelines(file_path_list)
        # for file_path in file_path_list:
        #     file_path = re.split(' ', file_path.replace('\n', ''))
        #     print file_path[0]

        output.close()

3、說明
此處檔案路徑的遍歷，只考慮到了兩級目錄，且目錄結構相對統一規範。
Shell指令碼通過迴圈查詢及awk操作，將目錄路徑打印出來；而python指令碼是將上級目錄下的檔案路徑存放在一個檔案中，可供檢視（打印出來的情況，只程式碼註釋部分）。
遍歷Os檔案路徑及Oss上的檔案路徑的方式，應該與此相同；需要根據不同的訪問方式進行程式碼更改。

分別用Shell和Python遍歷查詢Hdfs檔案路徑

1、使用Shell/Users/nisj/PycharmProjects/BiDataProc/getOssFileForDemo/getHdfsFilePath.sh#!/usr/bin/env b

20181005：python遍歷查詢資料庫所有表名和欄位，使用SQLAlchemy查詢所有表名

用sqlalchemy模組的方法（網上都是這個方法）： from sqlalchemy import Column, String, create_engine from sqlalchemy.ext.declarative import declar

分別使用shell和python實現兩列排序

lines 相同要求 open 並且 lam split shel join 有一個文件1.txt如下，要求使用shell和python實現排序，先按照第一列排序，第一列相同再按照第二列排序，並且輸出到另外一個文件2.txt LZdeMacBook-Pro:~ lz$ c

99乘法表分別用java和python實現

如何用java和python實現九九乘法表 java python python一行實現 java class ChengFaBiao { public static void main(String[] args) { for

用foreach和Iterator遍歷集合的方法

package TestMap; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Set; /** * Created by Adm

使用python遍歷目錄瀏覽檔案屬性

設計一個python模組ShowFileProperties.py來檢視path目錄下所有檔案的屬性。通過給定的目錄路徑檢視檔案的名稱大小，建立時間，最後修改時間。 1.遍歷path指定的目錄，獲取每個子目錄的路徑， 2.遍歷子目錄下的所有檔案，並返回檔案的屬性列表 3.

用shell實現一個小指令碼，用來同來統計自己某個檔案下的程式碼，總的程式碼行數，總的註釋量，總的空行量？支援遍歷查詢，支援軟連結查詢

[[email protected] yunwei]# cat sum_code_row_version1.4.sh #!/bin/bash # File Name: sum_code_row.sh # Author: Liwqiang # mail: [email

python遍歷目錄下的所有檔案和目錄詳細介紹

目錄結構如下圖： test---a------d------g--------g.txt test---a------d------a.txt test---a------e --------b --------c --------1.txt --------2.tx

Python中的用for,while迴圈遍歷檔案例項

使用for迴圈遍歷檔案開啟檔案 open r:以讀模式開啟 w:以寫模式開啟 a:以追加模式開啟 r+:以讀寫模式開啟 w+:以讀寫模式開啟（參見w） a+:以讀寫模式開啟（參見a） rb:以二進位制讀模式開啟 wb:以二進位制寫模式開啟（參見w） ab:以二進位制追

用FindFirstFile和FindNextFile函式歷遍指定目錄的所有檔案

本文利用FindFirstFile(),FindNextFile()函式歷遍指定目錄的所有檔案，最基礎的歷遍所有檔案。一下程式碼尚無法解決檔名為中文時的亂碼問題，以及無法分別無後綴的檔名和資料夾名的區別。http://blog.csdn.net/u012005313/article/details/464

Python自學之路：遞迴、棧和佇列遍歷目錄

遞迴呼叫的概念：一個函式呼叫了自身，稱為遞迴呼叫遞迴函式的概念：一個能夠被自身呼叫的函式稱為遞迴函式遞迴一般執行的是迴圈邏輯編寫遞迴函式的方法： 1、找出臨界條件，比如最小值，最大值等等 2、找出這一次和上一次的關係 3、假設當前函式已經能用，呼叫自身計算

用Python遍歷資料夾下所有電子字典檔案（不包括子資料夾）提取單詞到一個檔案

經過若干天的嘗試，最後凝鍊出了這麼一段程式碼，集幾天研究之成果，可謂費盡心機。裡面用到的成果包括： 1.with open...as 2.處理有亂碼的文字於是趕緊先寫下來，做個階段性成果。 import re import os.path p=re.compile

python遍歷某目錄的下兩層目錄，並查詢指定型別檔案，複製到上層資料夾

問題描述：當前目錄包含多層下級目錄，且下級目錄中各存在一個.avi檔案，每次訪問需要點選到每個下級目錄訪問一個檔案，操作複雜，且不夠直觀，所以寫了個指令碼將各個下級目錄下的avi檔案統一複製到上層目錄，直觀展示和查閱。問題截圖當前存在多個目錄每個目錄裡面

shell 遞迴遍歷資料夾對檔案行首和末尾進行修改

功能：遞迴遍歷資料夾下的cs檔案或者lua檔案，並對檔案的行首或者末尾插入程式碼#!/bin/bash str="" luafile=false csfile=false dfs(){ #echo $1 for file in $1/* do if [ -

Python實現深度遍歷和廣度遍歷

深度遍歷：原則：從上到下，從左到右邏輯（本質用遞迴）： 1）、找根節點 2）、找根節點的左邊 3）、找根節點的右邊 class Node(object): def __init__(sel

Python遍歷目錄和搜尋檔案中的關鍵字

2012-11-03 wcdj 遺留問題：如何處理中文 #-*- coding: gbk -*- ############ # 20121003 wcdj # FindFilev0.1 # 遍歷目錄和搜尋檔案中的關鍵字 ############ # import mod

Python列表推導式的使用和一些遍歷技巧

參考連結 # -*-coding:utf8-*- # 用列表推導式求矩陣的轉置 a = [[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]]

在一個字串中查詢子字串出現的次數（兩種方法）（遍歷查詢和切割判斷）

/** * 思路：開始找，如果返回-1，結束程式 * 否則，計數+1，再繼續從新的位置開始找，直到找不到 */ String str = "www.baidu.com/www.sina.com"; String s

C/C++實現平衡二叉樹的插入、刪除、查詢和各種遍歷

1 平衡二叉樹的插入關於平衡二叉樹的定義什麼的，就不再多說。直接說說各種功能的c語言實現。首先插入的時候需要進行旋轉以保證樹始終保持平衡。而旋轉的型別有四種：L-L型旋轉，L-R型旋轉，R-L型旋轉，R-R型旋轉。其中L-L型和R-R型只需要進行一次基本旋轉操作

Python遍歷資料夾查詢最新的檔案 demo

前情提要：需要再報告資料夾中，查詢最新建立的報告檔案。程式碼呈現： import os import time dir = r'C:\Users\jishi\Desktop\mine\work\report' a = os.path.getatime(dir) #輸出最近訪問時間

分別用Shell和Python遍歷查詢Hdfs檔案路徑

相關推薦