Hive架構、傾斜優化、sql及常見問題

阿新 • • 發佈：2019-05-17

con 共享 http bubuko 分發 block 分析器 auto 路徑

Hive架構

技術分享圖片
hive架構如圖所示，client跟driver交互，通過parser、planner、optimizer，最後轉為mapreduce運行，具體步驟如下

driver輸入一條sql，會由parser轉為抽象語法樹AST，這個是沒有任務元數據信息的語法樹；
語法分析器再把AST轉為一個一個的QueryBlock，一個QueryBlock包含輸入、輸出、計算邏輯，也就是說一個子程序就是QueryBlock
planner遍歷所有的QueryBlock，轉為一個個的Operator（算子，比如tablescanOperator），最後形成OperatorTree；
優化器對OperatorTree進行優化，包含謂詞下推、剪枝等；

然後遍歷OperatorTree，分割成多個mapreduce作業，形成物理計劃
之後進行物理優化，比如是否進行map join等

Hive 數據傾斜優化

對於group by可以有兩個優化點
map聚合：set hive.map.aggr=true，會在map端對相同key先聚合一下；
分發為兩道作業：set hive.groupby.skewindata=true，會對原來的一道作業分為兩道作業，第一道隨機分配key，第二道再按key分配
註意：對於部分聚合函數有用，比如sum和count，但是完全聚合函數無用，比如avg
對於join也有兩個優化點
map join：新版hive中默認開啟set hive.auto.convert.join=true ，join的左表如果足夠小，會直接把左表內容加載到內存中

兩道作業：set hive.optimize.skewjoin = true;set hive.skewjoin.key = skew_key_threshold （default = 100000）這個兩道作業跟groupby不一樣，這個是說把超過10萬行的數據單獨啟一道map join，最後再把結果聚合

hive常見問題

hive不支持非等值join
錯誤:select from a inner join b on a.id<>b.id
替代方法:select from a inner join b on a.id=b.id and a.id is null;
hive不支持非join連接

錯誤：select from dual a,dual b where a.key = b.key;
正確：select from dual a join dual b on a.key = b.key;
hive不支持or
錯誤:select from a inner join b on a.id=b.id or a.name=b.name
替代方法:select from a inner join b on a.id=b.id union all select * from a inner join b on a.name=b.name
hive內部表和外部表的區別
創建表時：創建內部表時，會將數據移動到數據倉庫指向的路徑；若創建外部表，僅記錄數據所在的路徑，不對數據的位置做任何改變。
刪除表時：在刪除表的時候，內部表的元數據和數據會被一起刪除，而外部表只刪除元數據，不刪除數據。這樣外部表相對來說更加安全些，數據組織也更加靈活，方便共享源數據
sortby、orderby、distributeby
order by會引發全局排序；會導致所有的數據集中在一臺reducer節點上，然後進行排序，這樣很可能會超過單個節點的磁盤和內存存儲能力導致任務失敗。
distribute by + sort by就是該替代方案，被distribute by設定的字段為KEY，數據會被HASH分發到不同的reducer機器上，然後sort by會對同一個reducer機器上的每組數據進行局部排序。

Hive架構、傾斜優化、sql及常見問題

con 共享 http bubuko 分發 block 分析器 auto 路徑 Hive架構 hive架構如圖所示，client跟driver交互，通過parser、planner、optimizer，最後轉為mapreduce運行，具體步驟如下 driver輸入一條sq

Django進階之查詢優化、extra註入SQL及批量創建

所有定義支持 primary spl 獲取 upd 數據庫操作 ephone Django查詢優化　　Django的查詢優化用到兩個函數——select_related()和prefetch_related()。　　select_related()用的是連表join

SQL通用優化方案(where優化、索引優化、分頁優化、事務優化、臨時表優化)

truncate height 能夠時有大數據量 2017年固然分頁索引優化 SQL通用優化方案:1. 使用參數化查詢：防止SQL註入，預編譯SQL命令提高效率2. 去掉不必要的查詢和搜索字段：其實在項目的實際應用中，很多查詢條件是可有可無的，能從源頭上避免的多余

大資料（二十四）：資料傾斜優化、並行執行、嚴格模式、JVM重用、執行計劃

一、資料傾斜優化 1.合理設定Map數量 1.通常情況下，作業會通過input的目錄產生一個或者多個map任務主要的決定因素有：input的檔案總個數，input的檔案大小，叢集

阿里P7架構師談：MySQL慢查詢優化、索引優化、以及表等優化總結

MySQL優化概述 MySQL資料庫常見的兩個瓶頸是：CPU和I/O的瓶頸。 CPU在飽和的時候一般發生在資料裝入記憶體或從磁碟上讀取資料時候。磁碟I/O瓶頸發生在裝入資料遠大於記憶體容量的時候，如果應用分佈在網路上，那麼查詢量相當大的時候那麼平瓶頸就會出現在網路上。

大型網際網路公司必備的架構技術棧——分散式架構、高可擴充套件、高效能、高併發、效能優化、Spring boot、Redis、ActiveMQ、Nginx、Mycat、Netty、Jvm大型分散式專案實戰

效能優化 JVM調優 Java程式效能優化 Tomcat Mysql Spring IOC Spring AOP Spring MVC Spring 5新特性 Mybatis 分散式架構架構核心服務層技術架構關鍵技術設施分散式訊息通訊非同

Java高架構師、分散式架構、高可擴充套件、高效能、高併發、效能優化、Spring boot、Redis、ActiveMQ、Nginx、Mycat、Netty、Jvm大型分散式專案實戰學習架構師之路

工作1-5年開發經驗，當你們提出漲工資的時候，或者要offer的時候底氣怎麼樣，是不是底氣十足，不給漲工資就辭職，是不是有自信提出來主管、或者是專案經理都能同意，他們相當設法把你留住。如果這樣你才是成功。什麼技術都沒有何談工資！給你分析一下這些技術，給大家羅列一些技術，看

改善深層神經網路_優化演算法_mini-batch梯度下降、指數加權平均、動量梯度下降、RMSprop、Adam優化、學習率衰減

1.mini-batch梯度下降在前面學習向量化時，知道了可以將訓練樣本橫向堆疊，形成一個輸入矩陣和對應的輸出矩陣：當資料量不是太大時，這樣做當然會充分利用向量化的優點，一次訓練中就可以將所有訓練樣本涵蓋，速度也會較快。但當資料量急劇增大，達到百萬甚至更大的數量級時，組成的矩陣將極其龐大，直接對這麼大

深入介紹Java中的鎖[原理、鎖優化、CAS、AQS]

1、為什麼要用鎖？鎖-是為了解決併發操作引起的髒讀、資料不一致的問題。 2、鎖實現的基本原理 2.1、volatile Java程式語言允許執行緒訪問共享變數，為了確保共享變數能被準確和一致地更新，執行緒應該確保通過排他鎖單獨獲得這個變數。Java語言提供了vo

【培訓】結構振動、衝擊、碰撞強度、動力優化、振動疲勞計算與振動臺試驗模擬

一、課程背景：本課程基於ANSYS經典和Workbench平臺，針對各類結構的振動、衝擊、碰撞強度問題、動力優化問題、振動疲勞問題和振動臺試驗模擬問題，給出有效的數值計算方案，並對多點激勵問題、大質量法數值模擬技術等相關高階計算技術進行探討。課程全面系統的講解各類動力學問題的計算原理、Work

sklearn庫：分類、迴歸、聚類、降維、模型優化、文字預處理實現用例（趕緊收藏）

分類演算法 # knn演算法 from sklearn.neighbors import KNeighborsClassifier knn = KNeighborsClassifier() ''' __init__函式 def __init__(self, n_neighbors=5,

機器學習總結（十）：常用聚類演算法（Kmeans、密度聚類、層次聚類）及常見問題

任務：將資料集中的樣本劃分成若干個通常不相交的子集。效能度量：類內相似度高，類間相似度低。兩大類：1.有參考標籤，外部指標；2.無參照，內部指標。距離計算：非負性，同一性（與自身距離為0），對稱性

JavaScript 各種事件、方法、引數詳解示例及常見問題等（全）

1.文字框焦點問題 onBlur:當失去輸入焦點後產生該事件 onFocus:當輸入獲得焦點後，產生該檔案 Onchange:當文字值改變時，產生該事件 Onselect:當文字加亮後，產生該檔案 <input type="text" value="郭強"

花書學習筆記(2) 病態、梯度優化、約束優化

病態條件條件數：是指函式相對於輸入的微小變化而變化的快慢程度。而微小的輸入變化導致劇烈的輸出變化時，方程存在病態。描述f(x)=A−1x的條件數定義為： maxi,j∣∣∣λ1λ2∣∣∣ 即最大

react生命週期，中介軟體、效能優化、資料傳遞、mixin的使用

https://github.com/lulujianglab/blog/issues/34 一、生命週期 1，初始化的執行順序，初始生命週期執行過程詳解 class initSate extends Component { constructor(props,

Android 效能優化之記憶體檢測、卡頓優化、耗電優化、APK瘦身

導語自2008年智慧時代開始，Android作業系統一路高歌，10年智慧機發展之路，如今 Android 9.0 代號P 都發布了，Android系統性能已經非常流暢了。但是，到了各大廠商手裡，改原始碼自定系統，使得Android原生系統變得魚龍混雜。另外，到了不同層次的

Android效能優化二電量優化、網路優化、物件池、bitmap解位元速率

大綱電量優化、網路優化、Android Wear上如何做優化、使用物件池來提高效率、LRU Cache、Bitmap的縮放、快取、重用、PNG壓縮、自定義View的效能、提升設定alpha之後View的渲染效能，以及Lint、StictMode等工具的使用技巧對於手機程

常見動態記憶體分配malloc()/free()、new/delete使用方法及常見錯誤

1.動態記憶體分配的幾種方式 ①從靜態儲存區分配記憶體，記憶體在編譯時已經分配好了，這塊記憶體在整個程式執行期間都存在，比如全域性變數 ②從棧上分配記憶體，函式體結束時，棧記憶體自動銷燬，比如區域性變數 ③從堆上開闢記憶體，比如malloc()/ne

移動開發中的 Web：WebView、WebKit、JSCore、Web 優化、熱修復、跨平臺、Native、Hybrid……

移動開發領域近年來已經逐漸告別了野蠻生長的時期，進入了相對成熟的時代。而一直以來 Native 和 Web 的爭論從未停止，通過開

專案實戰：流水線影象顯示控制元件（列重新整理、1ms一次、縮放、拽拖、拽拖預覽、效能優化、支援OpenGL GPU加速）

需求流水線影象掃描採集控制元件（帶模擬資料測試）效能需求 1.需至少滿足可1ms接收一次列資料，而不丟包（接收後可不必立馬顯示） 2.圖片重新整理率可達30HZ；限制需求 1.圖片高度最小隻能縮小為控制元件在介面顯的高度 2.控制元件在介面顯示的大小可任意調整，圖片可自適應控

Hive架構、傾斜優化、sql及常見問題

Hive 數據傾斜優化

hive常見問題

相關推薦