將資料匯入Hive資料庫中，使用python連結Hive讀取資料庫，轉化成pandas的dataframe

阿新 • • 發佈：2019-01-04

做網際網路應用開發過程中，時常需要面對海量的資料儲存及計算，傳統的伺服器已經很難再滿足一些運算需求，基於hadoop/spark的大資料處理平臺得到廣泛的應用。本文提供一個匯入資料到hive，用python讀取hive資料庫的例子。這實際是個比較簡單的操作，但是還是存在很多坑。

1.首先第一步

需要將Mysql或者其他資料庫的檔案匯出成CSV檔案格式。當然如果你做爬蟲，可以直接存到hive裡面。這一步可以用圖形化工具完成。

2.將csv檔案匯入到hive中。注意csv檔案的不需要列名。

操作如下：

a. 命令列下進入hive互動式環境

b.進入你需要儲存的資料庫中，建立一個空表（例表：test）：*注意所建表的列數需要與原csv檔案對齊。

create table test(
a string,
b string,
c string
)
row format serde
'org.apache.hadoop.hive.serde2.OpenCSVSerde'
with
SERDEPROPERTIES
("separatorChar"=",","quotechar"="\"")
STORED AS TEXTFILE;

c.將csv檔案匯入到hive資料庫中

local為本地資料，如果儲存在hdfs中，可以提供hdfs的url

load data local inpath '/home/XXXX/DATA.csv' into table test;

3. 使用python連結Hive

1.介紹使用pyhive模組來實現python對hive的連結讀取。安裝pyhive會遇到很多坑，請按一下步驟來安裝：

sudo apt-get install sasl2-bin
sudo apt-get install libsasl2-dev
pip install sasl
pip install thrift
pip install thrift-sasl
pip install PyHive
pip install pyhive

2.需要介紹下的是：

pip install sasl

這個庫參考資料：

https://serverfault.com/questions/644998/cyrus-sasl-2-1-26-on-ubuntu-12-04
http://askubuntu.com/questions/131580/how-do-i-install-cyrus-sasl-on-10-04-server

安裝這個庫，會遇到很多報錯。按照第一小節中的順序可以直接安裝。

3.使用pyhive連結hive

from pyhive import hive
import pandas as pd
def LinkHive(sql_select):
    connection = hive.Connection(host='localhost')
    cur = connection.cursor()      
    cur.execute(sql_select)
    columns = [col[0] for col in cursor.description]
    result = [dict(zip(columns, row)) for row in cursor.fetchall()]
    Main = pd.DataFrame(result)
    Main.columns = columns 
    return Main

sql = "select * from 資料庫.表名"
df  = LinkHive(sql)

4.執行方法

a.需要啟動hadoop所有服務。在ubuntu下敲下面命令。

1. cd /usr/local/hadoop/sbin  hadoop的安裝路徑 
2. ./start-all.sh             password是hadoop配置的密碼
3. hiveserver2                啟動hive連線服務，啟動後不要關閉終端

b.在檔案根目錄下開啟終端使用 python3 XXXXX.py 啟動程式。

flume將資料匯入到hbase中

安裝flume： [[email protected] ~]$ tar -zxvf flume-ng-1.6.0-cdh5.5.2.tar.gz 修改 flume-env.sh 配置檔案,主要是JAVA_HOME變數設定 [[email protect

將資料匯入Hive資料庫中，使用python連結Hive讀取資料庫，轉化成pandas的dataframe

做網際網路應用開發過程中，時常需要面對海量的資料儲存及計算，傳統的伺服器已經很難再滿足一些運算需求，基於hadoop/spark的大資料處理平臺得到廣泛的應用。本文提供一個匯入資料到hive，用python讀取hive資料庫的例子。這實際是個比較簡單的操作，但是還是

使用python將csv資料匯入到sqlite中

指令碼如下： #!/usr/bin/env python # -*- coding: utf-8 -*- import csv import sqlite3 def dataImport(csvpath,dbpath,tablename): reader = cs

使用POI將資料匯入匯出資料庫。

POI將資料匯入匯出資料庫。（採用ssm框架） 1.前臺列表的展示 <script type="text/javascript"> //進行資料的全選 function selectAll(){ var ids=document.get

java後端伺服器讀取excel將資料匯入資料庫

使用的是easypoi，官網文件：http://easypoi.mydoc.io/ 1 /** 2 * 匯入Excel檔案 3 */ 4 @PostMapping("/importTeacher") 5 @ResponseBody 6 publi

Shell_mysql命令以及將資料匯入Mysql資料庫

連線MYSQL資料庫 mysql -h${db_ip} -u${db_user} -p${db_pawd} -P${db_port} -D${db_name} -s -e "${sql}" 　　db_ip：主機地址　　db_user ：資料庫使用者名稱　　db_pwd：密碼　　db

將MySQL中資料匯入到MongoDB中

第一步：將user表從MySQL中匯出，右鍵，點選匯出嚮導，選擇格式為xlsx。第二步：匯出完成後，雙擊開啟user.xlsx，將user.xlsx另存為csv格式的檔案。（切記不可直接修改後綴名，會導致亂碼，無法匯入到MongoDB中，血的教訓）第三步：

oracle通過load data 將資料匯入表中通過儲存過程進行批量處理

說明:雖然沒圖，但文字表述很清楚，自己做過的專案留著備用（這只是初版，比較繁瑣，但很明確）準備工作做完之後，後期可直接使用。如後期excel資料有變更，只需改動對應的部分即可，不涉及改動的可直接使用。實際操作步驟依照excel資料模版格式準備好建表語句，將中間過渡

從mysql將資料匯入hive

[[email protected] ~]$ sqoop import --connect jdbc:mysql://Hadoop48/toplists --verbose -m 1 --username root --hive-overwrite --direct --table award --

實現鍵盤輸入資料，將資料儲存到檔案中去

總體思路：先讀入資料，讀資料的過程就是鍵盤輸入資料的過程，再向檔案中寫資料步驟：一，首先要先用檔案建立一個檔案的物件寫一個判斷函式，判斷該檔案是否已經存在，如果沒有存在，則新建一個檔案二，建立一個檔案輸入流物件，將鍵

mysql中的資料匯入到hbase中，並關聯phoenix

1.在hbase上建立表： hbase>create 'ES','f1' 2.phoenix上建立表： jdbc:phoenix:es01> create table ES(ids varchar primary key ,"f1"."class_name" va

通過expdp和impdp將Oracle11g資料匯入到oracle10g中

--匯出過程 1、檢視目錄： select * from dba_directories; 2、將目錄的操作許可權賦值給指定的使用者（不執行次步驟可能會出現許可權問題）： grant read,write on directory EXPDP_DIR to username; 3、執行匯出指令碼：

將模板word中的特定欄位替換（將資料匯入word中）

一、將模板word中的特定欄位替換（將資料匯入word中）所用jar包一、將模板word中的特定欄位替換（將資料匯入word中）所用jar包開發程式碼 /** * @Title createContract * @description 生成合

快速地將Excel資料匯入到SQL2005中的方法

在查詢分析器裡，直接寫SQL語句： --啟用Ad Hoc Distributed Queries： exec sp_configure 'show advanced options',1 reconfigure exec sp_configure 'Ad Hoc Distr

java怎樣將資料儲存到快取中，之後再儲存

package com.henry; import java.util.HashMap; import java.util.Map; import java.util.Random; import ja

左.右連線相關 , 將table1中資料匯入到table2中(表結構不相同)

現在要將table1中的資料轉到table2中,請教SQL語句該如何實現(只需要查詢語句就行了); 表 table1 name time value type A 2011-6-13 51 1 B 2011-6-13

SQL 一個使用者表中有一個積分欄位，假如資料庫中有100多萬個使用者，若要在每年第一天凌晨將積分清零，你將考慮什麼，你將想什麼辦法解決?

alter table drop column score; alter table add colunm score int; 可能會很快，但是需要試驗，試驗

python讀取txt並將資料插入到sql中

原始資料在txt中處理有很多不便想要把它們插入到sql中去程式碼如下：連線資料庫： import MySQLdb conn=MySQLdb.connect(host="localhost",user="root",passwd="root",db="mydatab

Python查詢MySQL資料，並提取mysql欄位名轉化成DataFrame

今天覆習一下，用python操作mysql以及excel，並且作為橋樑，連線mysql，excel. 那麼既然用到了python操作資料就不免需要用到dataframe做資料分析，本文主要一個麻煩點在於從mysql 中獲取到的資料沒有欄位名，下面直接上程式碼： import pymys

資料庫中Timestamp格式用String接收後，尾巴多了.0

資料庫中為：欄位：time 值：2016-06-06 16:13:12 java中用String接收後顯示為：2016-06-06 16:13:12.0 解決方法： 1、select 語句中對欄位使用函式DATE_FORMAT，如下： select

將資料匯入Hive資料庫中，使用python連結Hive讀取資料庫，轉化成pandas的dataframe

1.首先第一步

2.將csv檔案匯入到hive中。注意csv檔案的不需要列名。

3. 使用python連結Hive

相關推薦