1. 程式人生 > 程式設計 >如何在Win10系統使用Python3連線Hive

如何在Win10系統使用Python3連線Hive

由於資料存放在大資料平臺的Hive資料倉庫中,我需要在Win10系統上利用Python3連線Hive,然後讀取資料,進行探索、分析和挖掘工作。

如何在Win10系統使用Python3連線Hive

我通過網上查詢資料和實際測試,把Win10系統Python3成功連線Hive配置總結如下。

第一步:安裝依賴庫

pip install bitarray
pip install bit_array
pip install thrift
pip install thriftpy
pip install pure_sasl
pip install --no-deps thrift-sasl==0.2.1

提示:若是無法安裝,也可以點選如下網址,

https://www.lfd.uci.edu/~gohlke/pythonlibs/

選擇合適庫的whl下載,然後進行本地化安裝。

第二步:安裝impyla庫

我採用本地化安裝方式,先下載impyla庫的whl,如下圖:

如何在Win10系統使用Python3連線Hive

再安裝

pip install E:/Python_Library/impyla-0.16.2-py2.py3-none-any.whl

提示:上面的絕對路徑根據你自己的情況而定

第三步:測試impyla庫是否可以使用

from impala.dbapi import connect #用來連線Hive的函式
from impala.util import as_pandas #用來把資料結構轉換為pandas

若是執行通過,表示利用impala連線Hive配置成功。

簡單示例:

從Hive的一張表讀取100條記錄,放到pandas的DataFrame裡面。

參考程式碼:

from impala.dbapi import connect #用來連線Hive的函式
from impala.util import as_pandas #用來把資料結構轉換為pandas

conn = connect(host='my.host.com',port=21050)
cursor = conn.cursor()
cursor.execute('SELECT * FROM mytable LIMIT 100')
df = as_pandas(cursor)
cursor.close()

參考資料

https://github.com/cloudera/impyla

以上就是如何在Win10系統使用Python3連線Hive的詳細內容,更多關於Python3連線Hive的資料請關注我們其它相關文章!