impala + kudu | 大資料實時計算踩坑優化指南

阿新 • • 發佈：2021-08-06

一開始需要全量匯入kudu，這時候我們先用sqoop把關係資料庫資料匯入臨時表，再用impala從臨時表匯入kudu目標表

由於sqoop從關係型資料直接以parquet格式匯入hive會有問題，這裡預設hive的表都是text格式；每次導完到臨時表，需要做invalidate metadata 表操作，不然後面直接匯入kudu的時候會查不到資料.

除了查詢，建議所有impala操作都在impala-shell而不在hue上面執行
impala併發寫入kudu的時候，資料量比較大的時候

這時候kudu配置引數 --memory_limit_hard_bytes能大點就大點，因為kudu寫入首先儲存再記憶體裡面，到一定閥值才溢寫到磁碟，這個是直接最能提高寫的方法；

當然不是所有機器都有那麼多資源，可以把 
--maintenance_manager_num_threads 這個引數稍微調大，需要除錯，提高資料從記憶體寫入磁碟的效率

impala查詢kudu

首先所有表做完全量的etl操作，必須得執行compute stats 表名，不然impala執行sql生成的計劃執行數評估的記憶體不準確，容易評估錯誤導致實際執行不了

kudu表最好不要做任何壓縮，保證原始掃描效能發揮最好；假如對查詢效能要求比儲存要求高的話；大部分企業對實時查詢效率要求高，而且儲存成本畢竟低；

kudu針對大表要做好分割槽，最好range和hash一起使用，前提是主鍵列包含能hash的id，但range分割槽一定要做好，經驗告訴我一般是基於時間；

查詢慢的sql，一般要拿出來；方便的話做下explain，看下kudu有沒有過濾部分資料關鍵字kudu predicates；假如sql沒問題，那在impala 
-shell執行這個sql，最後執行summray命令，重點檢視單點峰值記憶體和時間比較大的點，對相關的表做優化，解決資料傾斜問題

kudu資料刪除

大表不要delete，不要猶豫直接drop，在create吧；磁碟空間會釋放的

關於impala + kudu 和 impala + parquet

網上很多分析impala + kudu 要比 impala + parquet 優越很多；誰信誰XB；

首先兩個解決的場景不一樣，kudu一般解決實時，hive解決的是離線（通常是T + 1或者 T -1）

hive基於hdfs，hdfs已經提供一套較為完善的儲存機制，底層資料和檔案操作便利；安全性，可擴充套件性都比kudu強很多，最重要parquet  
+ impala效率要比kudu高，數倉首選是它

kudu最大優勢是能做類似關係型資料庫一樣的操作，insert, update, delete，這樣熱點的資料可以儲存在kudu裡面並隨時做更新

最後談到的實時同步工具

同步工具我們這裡使用streamsets，一個拖拉拽的工具，非常好用；但記憶體使用率高，通過jconsole我們發現，所有任務同時啟動；JVM新生代的內容幾乎都跑到老年代了，GC沒來的及，就記憶體溢位了；後面單獨拿幾臺伺服器出來做這個ETL工具，jvm配置G1垃圾回收器

轉載：https://blog.csdn.net/u013411339/article/details/115343647

impala + kudu | 大資料實時計算踩坑優化指南

一開始需要全量匯入kudu，這時候我們先用sqoop把關係資料庫資料匯入臨時表，再用impala從臨時表匯入kudu目標表

大資料實時計算

本文分為四個章節介紹實時計算，第一節介紹實時計算出現的原因及概念；第二節介紹實時計算的應用場景；第三節介紹實時計算常見的架構；第四節是實時數倉解決方案。

四、（專案架構的過去與現在）億級使用者行為之大資料實時分析

一、資料採集設計與要求 1、資料採集設計與要求 1）徹底跟業務系統解耦：服務端資料落盤，然後通過flume採集，最後傳送到kafka

入門大資料---Hive計算引擎Tez簡介和使用

一、前言 Hive預設計算引擎時MR，為了提高計算速度，我們可以改為Tez引擎。至於為什麼提高了計算速度，可以參考下圖：

關於exceljs的資料有效性驗證踩坑記錄

最近公司的專案中，需要有下載 excel 模板的功能，這個模板需要在輸入時進行有效性判斷。我當時聽到需求時渾身一震，心想：這都是啥玩意啊 excel 輸入限制是啥啊？？？在詢問一番該功能的必要性之後，便開始了檢視文

基於Spark2.x新聞網大資料實時分析視覺化系統專案實戰

本次專案是基於企業大資料經典案例專案（大資料日誌分析），全方位、全流程講解大資料專案的業務分析、技術選型、架構設計、叢集規劃、安裝部署、整合繼承與開發和web視覺化互動設計。

大資料：計算管理

背景： 2017 年，阿里內部 MaxCompute 叢集上游 200 多萬個任務，每天儲存資源、計算資源消耗都很大。如何降低計算資源的消耗，提高任務執行的效能，提升任務產出的時間，是計算平臺和 ETL 開發工程師孜孜追求的目

Flume+Kafka+Spark Streaming實現大資料實時流式資料採集

大資料實時流式資料處理是大資料應用中最為常見的場景，與我們的生活也息息相關，以手機流量實時統計來說，它總是能夠實時的統計出使用者的使用的流量，在第一時間通知使用者流量的使用情況，並且最為人性化的為使用

python+sparkStreaming+kafka之大資料實時流

首先需要的是環境，我安裝的是spark2…1,kafka0-10,hadoop2.7,scala2.11,因為spark是Scala語言寫的，所以這個必須的安裝，大資料傳輸儲存需要用到Hadoop，HDFS，所以Hadoop需要安裝，streaming接受流資料來源有

獎金67萬！2020 中國計算機學會大資料與計算智慧大賽啟動！

點選藍字關注我們 CCF大資料與計算智慧大賽（CCF Computing Intelligence Contest，簡稱CCF BDCI）由中國計算機學會於2013年創辦。

Nebula Exchange 工具 Hive 資料匯入的踩坑之旅

摘要：本文由社群使用者 xrfinbj 貢獻，主要介紹 Exchange 工具從 Hive 數倉匯入資料到 Nebula Graph 的流程及相關的注意事項。

技術棧_人工智慧-大資料-雲端計算

ABC-人工智慧-大資料-雲端計算技術俯瞰雲管端 A B C-- 資料演算法算力 A 人工智慧Artificial Intelligence

大資料實時處理--架構分析

Spark是一個實時處理框架 Spark提供了兩套實施解決方案：Spark Streaming（SS）、Structured Streaming（SSS）

大資料實時儲存平臺構建

1.下載kafka安裝包並解壓 # wget https://dlcdn.apache.org/kafka/2.6.2/kafka_2.13-2.6.2.tgz # tar -zxvf kafka_2.13-2.6.2.tgz -C /home/hadoop/app/

利用flume+kafka+storm+mysql構建大資料實時系統

架構圖資料流向圖 1.Flume 的一些核心概念： 2.資料流模型 Flume以agent為最小的獨立執行單位。一個agent就是一個JVM。單agent由Source、Sink和Channel三大元件構成，如下圖：

大資料實時處理實戰

隨著網際網路時代的發展，運營商作為內容傳送的管道服務商，在資料領域具有巨大的優勢，如何將這些資料轉化為價值，越來越被運營商所重視。

更新前沿技術！大資料實時專案從架構設計到實戰部署大資料專案分析與視覺化實現

教程目錄： ├─01大資料技術之實時專案-課程概述及資料採集.docx ├─02大資料技術之實時專案-ElasticSearch.docx

vue使用節流函式的踩坑例項指南

前言一個常見的業務場景，我們要在input搜尋框輸入結束後，傳送相關請求，獲取搜尋資料。頻繁的事件觸發會導致介面請求過於頻繁。所以需要我們對此加以限制，來禁止不必要的請求，以免資源的浪費~

大資料開發之Hive SQL優化思路分享

Hive的優化主要分為：配置優化、SQL語句優化、任務優化等方案。其中在開發過程中主要涉及到的可能是SQL優化這塊。

大資料踩坑之旅——DB2使用load資料檔案

技術標籤：工作踩坑hdfs資料庫db2資料庫大資料踩坑之旅——DB2使用load資料檔案在生產中，遇到要從大資料環境將資料檔案匯入到db2中去的需求，實現方式有兩種。查閱資料可知，大資料hive中的編碼為utf-8，而d

impala + kudu | 大資料實時計算踩坑優化指南

相關推薦