hive表儲存為parquet格式

阿新 • • 發佈：2019-01-25

Hive0.13以後的版本

建立儲存格式為parquet的hive表：

CREATE TABLE parquet_test (
 id int,
 str string,
 mp MAP<STRING,STRING>,
 lst ARRAY<STRING>,
 strct STRUCT<A:STRING,B:STRING>) 
PARTITIONED BY (part string)
STORED AS PARQUET;

測試：

本地生成parquet格式的檔案

>>> import numpy as np
>>> import pandas as pd
>>> import pyarrow as pa
>>> df = pd.DataFrame({'one':['test','lisi','wangwu'], 'two': ['foo', 'bar', 'baz']})
>>> table = pa.Table.from_pandas(df)
>>> import pyarrow.parquet as pq
>>> pq.write_table(table, 'example.parquet2')
# 指定壓縮格式
# 預設使用的snappy >>> pq.write_table(table, 'example.parquet2', compression='snappy')
# >>> pq.write_table(table, 'example.parquet2', compression='gzip')
# >>> pq.write_table(table, 'example.parquet2', compression='brotli')
# >>> pq.write_table(table, 'example.parquet2', compression='none')
>>> table2 = pq.read_table('example.parquet2')
>>> table2.to_pandas()
      one  two
0    test  foo
1    lisi  bar
2  wangwu  baz

Snappy壓縮具有更好的效能，Gzip壓縮具有更好的壓縮比。

建立hive表並匯入生成的parquet格式資料

hive> create table parquet_example(one string, two string) STORED AS PARQUET;
hive> load data local inpath './example.parquet2' overwrite into table parquet_example;
hive> select * from parquet_example;
OK
test	foo
lisi	bar
wangwu	baz
Time taken: 0.071 seconds, Fetched: 3 row(s)

Hive Parquet配置

hive中支援對parquet的配置,主要有:

parquet.compression
parquet.block.size
parquet.page.size

可以在Hive中直接set:

hive> set parquet.compression=snappy

控制Hive的block大小的引數:

parquet.block.size
dfs.blocksize
mapred.max.split.size

參考：

Hive支援Parquet格式：Parquet；

hive表儲存為parquet格式

Hive0.13以後的版本建立儲存格式為parquet的hive表： CREATE TABLE parquet_test ( id int, str string, mp MAP<STRING,STRING>, lst ARRAY<STRING

spark1.6使用：讀取本地外部資料，把RDD轉化成DataFrame，儲存為parquet格式,讀取csv格式

一、先開啟Hadoop和spark 略二、啟動spark-shell spark-shell --master local[2] --jars /usr/local/src/spark-1.6.1-bin-hadoop2.6/libext/com.mysql.jdbc.Driver.j

opencv3.3 該檔案包含不能在當前內碼表(936)中表示的字元。請將該檔案儲存為 Unicode 格式以防止資料丟失

VS2015 + opencv3.3 執行報錯： warning C4819: 該檔案包含不能在當前內碼表(936)中表示的字元。請將該檔案儲存為 Unicode 格式以防止資料丟失 error C2065: “ptr”: 未宣告的識別符號 error C2065: “ptr”:

VS2017 報錯該檔案包含不能在當前內碼表(936)中表示的字元。請將該檔案儲存為 Unicode 格式以防止資料丟失

尤其程式碼是從linux平臺複製過來：報錯如圖：更有甚者基本函式都報錯：當下檢查發現if else break case等基本函式並無問題時，報錯行數明顯不一致等一定要注意文件編碼格式，最簡單的辦法是用notepad++，逐個將.

《 warning C4819: 該檔案包含不能在當前內碼表(936)中表示的字元。請將該檔案儲存為 Unicode 格式以防止資料丟失》

問題描述最近專案中添加了很多外部的.h和.cpp檔案，有可能是編碼格式不一樣，在生成解決方案時，輸出窗口出現了好多的warning C4819警告資訊，具體情況如下所示： warning C4819: 該檔案包含不能在當前內碼表(936)中表示的字元。請將該檔案儲存為

VS2017 warning C4819: 該檔案包含不能在當前內碼表(936)中表示的字元。請將該檔案儲存為 Unicode 格式以防止資料丟失

Visual Studio 2017出現warning C4819: 該檔案包含不能在當前內碼表(936)中表示的字元。請將該檔案儲存為 Unicode 格式以防止資料丟失解決方案： 1.修改字元編碼格式 Visual Studio提供高階儲存選項功能，

“該檔案包含不能在當前內碼表(936)中表示的字元，請將該檔案儲存為 Unicode 格式以防止資料丟失”

這個警告怎麼破?其實很簡單：以VS2012為例，去除方法見下： ------------------------------------------- 影象處理開發資料、影象處理開發需求、

圖片儲存為YUV格式

儲存為NV12格式的yuv420,yyyuvuvuv #include <string> #include <iostream> #include <opencv2/highgui/highgui.hpp> #include

ABAP內表匯出為EXCEL格式的幾種方法（轉）

目錄正文這是一篇轉載文章，本人修改了其中的幾個錯字病句內表資料下載到EXCEL的幾種方法 1. 函式: GUI_DOWNLOAD 這是一種最基本的方法，對應 CLASS: CL_GUI_FRONTEND_SERVICES 的方法 GUI_DOWN

WINDOWS解決升級npm依賴包的bat檔案，將檔案儲存為bat格式字尾，放node專案目錄執行

@echo off & npm outdated --parseable --depth=0 >up.txt & for /f “delims=^” %%i in (up.txt) do ( for /f “delims=:” %%i in ("%%~ni") do (

vue專案中將canvas生成的圖片，儲存為png格式並下載

在博主的稍前一篇文章中，寫到vue中關於將資訊生成二維碼的方法，生成的二維碼圖片是canvas所繪製，在手機端我們往往需要將手機二維碼圖片可以儲存到本地，該如何操作呢。首先，假使生成的二維碼圖片掛載在id為target的div標籤下 <div data-v-4eb

python爬取資料儲存為Excel格式

#encoding:'utf-8' import urllib.request from bs4 import BeautifulSoup import os import time import xlrd import xlwt from xlutils.copy impo

Caffe：如何fine tune一個現有的網路（VGG16）——將資料預處理並儲存為h5格式

在訓練神經網路的過程中，常常需要fine tune一個現有的網路，首先是需要對輸入資料進行預處理，包括有：對尺寸大小進行處理將正負例和測試的data&label儲存為h5檔案將h5檔案中data&label對應的書序打亂實現程式碼

Scrapy用pipelines把字典儲存為csv格式

import csvclass MyProjectPipeline(object): # 儲存為csv格式def __init__(self): # 開啟檔案，指定方式為寫，利用第3個引數把csv寫資料時產生的空行消除 self.f = open("myproject.csv","a",newl

Navicat匯出表結構（表設計)為Excle格式

由於公司需要在wiki上上傳表格設計的文件，於是在網上找了一個方法用於將mysql表的表格設計轉成EXCEL的方法。 1. 首先點選新建查詢，然後輸入下面的語句 SELECT COLUMN_NAME 欄位名稱, COLUMN_TYPE 資料型別, IF(IS_NULLABLE='NO','是'

VS2013中如何將程式碼自動儲存為UTF8格式

在利用VS2013在編寫程式碼時，原始碼會自動編碼為GBK字符集，GBK可以識別中文，但是在英文編譯環境下GBK則會顯示成亂碼。這時我們需要把GBK字符集轉換為另一種國際通用字符集，即UTF8國際編碼字符集。這樣在編譯中遇到中文字元時就不會出現亂碼現象了。方法/步驟

matlab心形動畫（儲存為gif格式）程式

function M close all clear clc %%初始化 Times=10; [x,y]=meshgrid(-10:0.02:10); %% for T=1:Times z=-(17*x.^2-16*y.*abs(x)+17.*y.^2)

Matlab 讀取圖片並將其按指定尺寸儲存為mat格式

1.讀取圖片使用imread函式，以矩陣的形式返回圖片的資料 I = imread('1.jpg'); 紅字部分更改為自己的圖片路徑 2.縮放圖片使用imresize函式，將圖片縮小為64x64， B = imresize(I, [64,64]); 若

vc把文字內容存成word檔案和把doc檔案儲存為txt格式

1.vc把文字內容存成word檔案 #include <ole2.h>#include <stdio.h> void ErrHandler(HRESULT hr, EXCEPINFO excep){ if(hr==DISP_E_EXCEPTION

oracle ebs + PL/SQL實現將查詢出來的資料儲存為csv格式檔案，並定期上傳到FTP伺服器學習總結

目的 oracle ebs + PL/SQL實現將查詢出來的資料儲存為csv格式檔案，並定期上傳到FTP伺服器。用到oracle utl_file包,FTP檔案上傳第一次接觸這種型別的任務，也是在網上查詢了很多參考資料才弄出來。下面是具體的例子。

hive表儲存為parquet格式

相關推薦