經驗分享（7）建立hive表時格式如何選擇

阿新 • • 發佈：2018-12-12

常用的幾種格式：

textfile

需要定義分隔符，佔用空間大，讀寫效率最低，非常容易發生衝突（分隔符）的一種格式，基本上只有需要匯入資料的時候才會使用，比如匯入csv檔案；

json

需要匯入jar，http://www.congiu.net/hive-json-serde/，佔用空間最大，讀寫效率低，基本上只有需要匯入資料的時候才會使用，比如匯入json檔案；

ROW FORMAT SERDE 'org.openx.data.jsonserde.JsonSerDe'
STORED AS TEXTFILE

orc

列式儲存，佔用空間最小，非常適合用來做數倉；

parquet

列式儲存，佔用空間居中，如果後期使用spark來處理，parquet是最佳格式；

相同資料規模（1700w行）和查詢條件（count+distinct+where+group by）下，4種格式的儲存（不啟用壓縮）和查詢效率如下：

	txt	json	orc	parquet
資料大小	2.7G	3.4G	149.6M	702.7M
hive資料寫入時間	148s	122s	206s	39s
hive查詢	32s	49s	35s	37s
spark查詢	12s	22s	12s	8s

為什麼spark對parquet支援更好，可以通過檢視執行計劃，在查詢txt、json、orc表的時候，使用的是HiveTableScan，在查詢parquet表時，使用的是FileScan parquet，原因就是這個特殊的優化；

經驗分享（7）建立hive表時格式如何選擇

常用的幾種格式： textfile 需要定義分隔符，佔用空間大，讀寫效率最低，非常容易發生衝突（分隔符）的一種格式，基本上只有需要匯入資料的時候才會使用，比如匯入csv檔案； json 需要匯入jar，http://www.congiu.net/hive-json-serde/，佔用空間最大，讀寫效率

【原創】大叔經驗分享（23）hive metastore的幾種部署方式

tps rac driver 所有 ava onf script 1.2 uri hive及其他組件（比如spark、impala等）都會依賴hive metastore，依賴的配置文件位於hive-site.xml hive metastore重要配置 hive.met

項目優化經驗分享（一）數據自己主動匹配

als 主動 options option reg shee total tomat 功能從今天開始。我將和大家分享一下近期經手項目的優化經驗。今天我們分享的內容是：自己主動匹配！引言：輸入框數據自己主動匹配大家應該非常熟悉，當我們在使用百度或go

HDMI調試經驗分享（一）—— 基於KC705的example實現

alt 如果追蹤分享生成必須還需要 pro 註意在KC705的平臺上，實現HDMI的example有兩個，xapp1287，xapp1291。其中1291偏復雜。因為我沒有HDCP的license，使用xapp1287的tcl生成

ddr3調試經驗分享（五）——KC705_MIG時鐘清單

設定意思分享解釋報錯 blog 晶振 data 差分最近阿威也在玩MIG ，然後對我問了一大堆問題，主要針對MIG的時鐘。後來發現自己理解得還是不夠。這麽一討論更加清晰了，做個筆記吧。第一個時鐘，也就是MIG 對DDR接口的時

經驗分享（5）oozie提交spark任務如何新增依賴

spark任務新增依賴的方式： 1 如果是local方式執行，可以通過--jars來新增依賴； 2 如果是yarn方式執行，可以通過spark.yarn.jars來新增依賴；這兩種方式在oozie上都行不通，首先oozie上沒辦法也不應該通過local執行，其次通過spark.yarn.jars方式配

經驗分享（4）Yarn ResourceManager頁面如何實現主被自動切換

hdfs、yarn、hbase這些元件的master支援多個，實現自動主備切換，其中hdfs、hbase無論訪問主master或者備master都可以正常訪問頁面，但是yarn比較特別，只有主master的頁面可以訪問，備master會返回Refresh，3s後重定向；一種方式是提供兩個域名，分別對應兩個

經驗分享（6）Oozie如何檢視提交到Yarn上的任務日誌

通過oozie job id可以檢視流程詳細資訊，命令如下： oozie job -info 0012077-180830142722522-oozie-hado-W 流程詳細資訊如下： Job ID : 0012077-180830142722522

經驗分享（9）yarn重要配置yarn.nodemanager.local-dirs

yarn中有一個比較重要的配置yarn.nodemanager.local-dirs，如果配置的不好，在飽和狀態執行下叢集會出現很多問題：1 預設配置${hadoop.tmp.dir}/nm-local-dir，系統盤通常只有幾百G，配置在這裡會經常報磁碟空間不足的錯誤；2 配置到其中1個數據盤，比如/dat

經驗分享（11）linux常用命令之文字替換

linux常用命令之文字替換 1 vi vi test_file :%s/h/h1/g 註釋：全文替換，將h替換為h1 :1,4s/h/h1/g 註釋：將第1行到第4行的h替換為h1 :%s/\n/,/g 註釋：將換行符替換為, 2 sed s

【原創】經驗分享（10）Could not transfer artifact org.apache.maven:maven. from/to central. Received fatal alert: protocol_version

maven編譯工程報錯 [ERROR] Failed to execute goal net.alchim31.maven:scala-maven-plugin:3.2.2:add-source (scala-compile-first) on project trade: Execution sca

【原創】經驗分享（12）如何程式化kill提交到spark thrift上的sql

spark 2.1.1 hive正在執行中的sql可以很容易的中止，因為可以從console輸出中拿到當前在yarn上的application id，然後就可以kill任務， WARNING: Hive-on-MR is deprecated in Hive 2 and may no

自學TM4C123G學習經驗分享（一）

第一次寫部落格，可能會有很多不足之處，望海涵。我是今年9月中旬第一次接觸ARM的微控制器，學生黨嘛比較窮就隨便拿了一塊老師的板子學。這個系列的板子韌體庫還是比較好下載的，但是相互之間的經驗交流比較少，相信你也遇到過。接下來我將分享我從建工程到能把led燈泡點亮的過程。首先

【原創】經驗分享（15）spark sql limit實現原理

之前討論過hive中limit的實現，詳見 https://www.cnblogs.com/barneywill/p/10109217.html下面看spark sql中limit的實現，首先看執行計劃： spark-sql> explain select * from test1 limit

關於啟用 HTTPS 的一些經驗分享（二）

提醒：本文最後更新於 970 天前，文中所描述的資訊可能已發生改變，請謹慎使用。幾天前，一位朋友問我：都說推薦用 Qualys SSL Labs 這個工具測試 SSL 安全性，為什麼有些安全實力很強的大廠家評分也很低？我認為這個問題應該從兩方面來看：1）國內使用者終端情況複雜，很多時候降低 S

關於啟用 HTTPS 的一些經驗分享（三）

文章目錄資源替換服務端代理連通性提醒：本文最後更新於 930 天前，文中所描述的資訊可能已發生改變，請謹慎使用。關於「啟用 HTTPS 的經驗分享」這個話題，我已經寫過兩篇文章：第一篇主要介紹 HTTPS 如何與一些較新的安全規範配合使用，面向的是現代瀏覽器

關於啟用 HTTPS 的一些經驗分享（一）

提醒：本文最後更新於 1083 天前，文中所描述的資訊可能已發生改變，請謹慎使用。隨著國內網路環境的持續惡化，各種篡改和劫持層出不窮，越來越多的網站選擇了全站 HTTPS。就在今天，免費提供證書服務的 Let's Encrypt 專案也正式開放，HTTPS 很快就會成為 WEB 必選項。HTT

【原創】經驗分享（20）spark job之間會停頓幾分鐘

今天遇到一個問題，spark應用中在一個迴圈裡執行sql，每個sql都會向一張表寫入資料，比如 insert overwrite table test_table partition(dt) select * from test_table_another; 除了執行sql沒有其他邏輯，每個sq

十八年開發經驗分享（01）學習篇

很偶然的寫了一篇博文“十八年開發經歷小結”，本來打算只是簡單回顧一下自己經歷。結果沒想到被CSDN放到了首頁，反映也還可以，感興趣的可以訪問我在CSDN上的部落格，點選這裡，或者訪問我在部落格園上的部落格，點選這裡。既然我寫的東西還有人願意看，於是我就萌發了再寫一個系列的文

C#呼叫百度地圖API經驗分享（三）

這一篇我將跟大家分享一下我自己在開發過程中總結出的一些操作地圖的方法，屬性，及思路，希望可以讓大家少走彎路。 1.定位一般百度的示例DEMO裡開始初始化地圖時用的都是map.centerAn

經驗分享（7）建立hive表時格式如何選擇

textfile

json

orc

parquet

相關推薦