如何在Win10系統使用Python3連線Hive
阿新 • • 發佈:2020-10-17
由於資料存放在大資料平臺的Hive資料倉庫中,我需要在Win10系統上利用Python3連線Hive,然後讀取資料,進行探索、分析和挖掘工作。
我通過網上查詢資料和實際測試,把Win10系統Python3成功連線Hive配置總結如下。
第一步:安裝依賴庫
pip install bitarray pip install bit_array pip install thrift pip install thriftpy pip install pure_sasl pip install --no-deps thrift-sasl==0.2.1
提示:若是無法安裝,也可以點選如下網址,
https://www.lfd.uci.edu/~gohlke/pythonlibs/
選擇合適庫的whl下載,然後進行本地化安裝。
第二步:安裝impyla庫
我採用本地化安裝方式,先下載impyla庫的whl,如下圖:
再安裝
pip install E:/Python_Library/impyla-0.16.2-py2.py3-none-any.whl
提示:上面的絕對路徑根據你自己的情況而定
第三步:測試impyla庫是否可以使用
from impala.dbapi import connect #用來連線Hive的函式 from impala.util import as_pandas #用來把資料結構轉換為pandas
若是執行通過,表示利用impala連線Hive配置成功。
簡單示例:
從Hive的一張表讀取100條記錄,放到pandas的DataFrame裡面。
參考程式碼:
from impala.dbapi import connect #用來連線Hive的函式 from impala.util import as_pandas #用來把資料結構轉換為pandas conn = connect(host='my.host.com',port=21050) cursor = conn.cursor() cursor.execute('SELECT * FROM mytable LIMIT 100') df = as_pandas(cursor) cursor.close()
參考資料
https://github.com/cloudera/impyla
以上就是如何在Win10系統使用Python3連線Hive的詳細內容,更多關於Python3連線Hive的資料請關注我們其它相關文章!