為什麼資料分析中要建資料倉庫?
最近在部落格園上看到一篇文章,關於資料倉庫建設相關的。以前做專案一直通過PowerQuery進行資料加工處理,再使用PowerBI Desktop進行資料分析展現,沒有單獨構建資料倉庫的概念。通過這個文章找到中軟易通官網,瞭解一些免費的ETL工具介紹和視訊後發現原來通過ETL工具建立資料倉庫確實可以比較簡單。(注意:這裡的簡單是相對的,主要還是我們需要有資料倉庫相關的知識尤其是資料倉庫維度建模,後期我會專門針對維度建模寫一個維度建模系列的文章。)
圖中我們可以看到有資料倉庫和沒有資料倉庫的區別。在進行資料分析的時候,我們總會遇到一些名詞,比如資料倉庫。資料倉庫是資料分析中一個比較重要的東西,資料倉庫是一個面向主題的、整合的、相對穩定的、反應歷史變化的資料集合。下面就給大家解釋一下資料分析中的資料倉庫。
對資料分析的理解大家應該都是比較熟悉的,資料分析的流程有很多,首先需要進行對業務的理解,然後就是對資料的理解,挖掘資料,資料處理,資料分析,資料展現,這些步驟就能夠給大家帶來一個不錯的資料分析結果。
但是資料分析中的工作最重要的就是資料處理工作,由於資料分析對資料質量、格式的要求比較高,對資料的理解也必須非常深刻,使得資料契合業務需求也要一定的過程,根據我做資料分析的經驗,在整個資料分析流程中,用於資料處理的時間往往要佔據70%以上。所以,如何高效、快速地進行資料理解和處理,往往決定了資料分析專案的進度和質量。而資料倉庫具有整合、穩定、高質量等特點,基於資料倉庫為資料分析提供資料,往往能夠更加保證資料質量和資料完整性。
我們如果要做好資料分析的時候,要使用ETL工具構建資料倉庫提升資料分析效果需要從三個方面。分別是資料理解、資料質量、資料跨系統關聯。
一、資料理解
我們都知道,資料倉庫是面向主題的,所以其自身與業務結合就相對緊密和完善,更方便資料分析師基於資料理解業務。而資料倉庫是有很多的主題組成,包括了很多的資料。當我們需要對資料進行分析的時候,如果理解資料倉庫的模型,資料理解也就水到渠成了。
第二、資料質量
我們在做資料分析的時候要求資料是乾淨、完整的,而資料倉庫已經對源系統的資料進行了業務契合的轉換,以及髒資料的清洗,這就為資料分析的資料質量做了較好的保障。
第三、資料跨系統關聯
資料跨系統關聯資料倉庫的一個簡單架構,各業務源系統的資料經過ETL過程後流入資料倉庫,當不同系統資料整合到資料倉庫之後,至少解決了資料分析中的兩個問題:
第一,跨系統資料收集問題,在金融分析中同一個客戶的儲蓄交易和理財交易我們在同一張事實表就可以找到;
第二,跨系統關聯問題,進行資料整合時,總是需要找到共同點來關聯來自不同系統的資訊,而資料倉庫在ETL過程中就會整合相關客戶資訊,完美解決跨系統關聯問題。
通過上面的內容我們不難發現數據倉庫確實能夠給大家帶來很多的幫助,大家在學習資料分析之餘需要對資料分析中的資料倉庫進行了解,這樣才能夠更好地去進行資料分析工作。希望這篇文章能夠給大家帶來幫助,最後感謝大家的閱讀。
歡迎大家一起加入高效資料處理ETL交流群,一起討論資料分析前ETL過程的問題,一起學習一起成長。
掃碼加群:
相關推薦
為什麼資料分析中要建資料倉庫?
最近在部落格園上看到一篇文章,關於資料倉庫建設相關的。以前做專案一直通過PowerQuery進行資料加工處理,再使用PowerBI Desktop進行資料分析展現,沒有單獨構建資料倉庫的概念。通過這個文章找到中軟易通官網,瞭解一些免費的ETL工具介紹和視
python資料分析中常用的庫
Python是資料處理常用工具,可以處理數量級從幾K至幾T不等的資料,具有較高的開發效率和可維護性,還具有較強的通用性和跨平臺性,這裡就為大家分享幾個不錯的資料分析工具,需要的朋友可以參考下 Python是資料處理常用工具,可以處理數量級從幾K至幾T不等的資料,具有較高的開發效率和可維
大資料分析中,有哪些常見的大資料分析模型?
常見資料分析模型較多,列舉其中常見的八種供樓主參考: 1、行為事件分析 行為事件分析法來研究某行為事件的發生對企業組織價值的影響以及影響程度。企業藉此來追蹤或記錄的使用者行為或業務過程,如使用者註冊、瀏覽產品詳情頁、成功投資、提現等,通過研究與事件發生關聯的所有因素來挖掘使用者行為事件背後的原因、互動影響
視覺化大資料分析軟體要掌握這6個核心技術!
大資料技術與商業智慧BI是相輔相成的,大資料技術可以幫助BI產品突破業務和技術的雙挑戰。視覺化大資料分析軟體在快速發展的市場環境中,迎來了越來越多的技術要求。這些核心技術成為大資料獲取、儲存、處理分析或視覺化的有效手段,可以說是我們這些專注研究視覺化大資料分析軟體的工作人員需要去學習和了解的!
簡單操作sklearn中內建資料
import matplotlib from sklearn.model_selection import train_test_split from sklearn import datasets dig=datasets.load_digits()#讀入sklearn內建資料 print(
資料分析中sql基本使用思路是什麼,如何培養自己的資料分析思維?
在資料分析行業中,離不開資料分析軟體以及相應的思維資料分析中,需要用很多的軟體去進行資料分析,很多人會使用Excel表格並且用Excel表格進行分析資料,但是Excel不適合分析大量的資料,如果使用Excel強行分析資料的話,就會顯得力不從心。不過,資料庫可以解決這個問題,很多企業都會使用sql進行儲存資
車聯資料分析-手機內建感測器和定位技術
我們的SDK以智慧手機為駕駛過程資料採集和駕駛行為分析終端。先來看一下手機內建的感測器和手機定位技術吧 一、手機內建感測器 GPS定位:導航、地圖、打車、跑步、計步、輔助駕駛 加速計:搖一搖、遊戲、跑步、計步、輔助駕駛 陀螺儀:遊戲、輔助駕駛 磁力計:指南針 距離感測器:位於
大資料分析中使用關係型資料庫的關鍵點
相當一部分大資料分析處理的原始資料來自關係型資料庫,處理結果也存放在關係型資料庫中。原因在於超過99%的軟體系統採用傳統的關係型資料庫,大家對它們很熟悉,用起來得心應手。 在我們正式的大資料團隊,數倉(資料倉庫Hive+HBase)的資料收集同樣來自Oracle或MySql,處理後的統計結果和明細,儘管儲存
資料分析中資料清洗物件有哪些?
在資料分析中資料分析獲取是一個非常重要的事情,為了保證資料分析出一個很好的結果,需要一個乾淨的資料,乾淨的資料能夠提高資料分析的效率,所以,資料清洗是一個很重要的工作,通過資料的清洗,就能夠統一資料的格式,這樣才能夠減少資料分析中存在的眾多問題,從而提高資料的分析的效率。一般來說,清洗
創業公司做資料分析(六)資料倉庫的建設
作為系列文章的第六篇,本文將重點探討資料處理層中資料倉庫的建設。在第二篇運營資料系統一文,有提到早期的資料服務中存在不少問題,雖然在做運營Dashboard系統時,對後臺資料服務進行了梳理,構建了資料處理的底層公共庫等,但是仍然存在一些問題: 中間資料流
資料分析中的5w2h分析法(二)
在上一篇文章中我們為大家簡單地解答了5w2h的具體內容,簡單來說,5w2h就是由7個單片語成的,分別是What(使用者要什麼?)Why(為什麼要?)Where(從哪兒得到?)When(我們什麼時候做?)Who(對誰做?)How much(給多少?)How(怎麼做?)。這7個單詞能夠給大家愛帶來很多的思路,
資料分析中的5w2h分析法(一)
在資料分析工作中我們需要了解很多的資料分析方法,其中比較經典的就是5w2h法,很多人對於5w2h法不是很清楚。其實就目前而言,很多的資料分析師都是需要了解這個資料分析方法的,這個資料分析的方法能夠不斷給我們分析資料的方向,一名優秀的資料分析師一定會懂得這個資料分析知識。下面就由小編為大
資料分析中的分組分析法(二)
我們在上面的內容中為大家解釋了資料分析中的分組分析方法,我們根據屬性指標分組分析法和數量指標分組分析法的定義給大家進行了詳細的說明。但是對於數量指標分組分析法沒有給大家詳細地說明,今天我們給大家好好講解一下這方面的內容,希望這篇文章能夠幫助到大家。 數量指標分組分析法有單項式分組和組距式分組。現在我們給
詳解資料分析中的行為分析
現在資料分析在生活中越來越流行了,大家可能不知道的是,資料分析中的一部分是行為分析,通過把行為轉換成資料,然後通過這些資料進行分析資料的實際內容,從而發現一些比較重要的資訊。那麼資料分析中的行為分析的具體內容是什麼呢?我們用這些行為分析能夠做什麼呢?下面就由小編為大家解答一下這個問題。 我們在進行行為分
漫談redis在運維資料分析中的去重統計方式
今天,我和大家分享下redis在運維資料分析中的去重統計方式。為了避免混淆,本文中對於redis的資料結構做如下約定: SET:saddkey member ZSET:zaddkeyscoremember HYPERLOGLOG:pfaddkeyelement
大資料分析中的挖掘技術(一)
在大資料分析中,資料的挖掘技術是比較重要的,畢竟資料探勘是獲取資料來源的方式,我們都知道大資料分析是需要資料的,沒有資料何談分析?所以我們就需要重視大資料中的挖掘技術,下面我們就在這篇文章中給大家講述一下大資料分析中的挖掘技術。 首先我們給大家說一下大資料分析技術,大資料分析技術就是改進已有資料探勘和機
大資料分析中的挖掘技術(二)
我們在上一篇文章中給大家介紹了大資料分析技術、資料探勘的意義、資料探勘的技術以及方法還有機器學習的內容。一般來說,大資料分析中的挖掘技術都是比較重要的,在這篇文章中我們給大家介紹一下資料探勘的主要過程以及資料探勘的重點內容。 我們不只在一篇文章中提到過,資料探勘的內容是非常重要的,
效率工具:資料分析中常見的Excel函式都在這裡了
題記 最近,不知怎麼的突然迷上了Excel,雖說用雲筆記整理資訊更方便,但是印象和有道,說實話,插入表格功能都很雞肋,在真正提煉結構化知識時,還是不如Excel來得更高效。 加上工作中也會常常用Excel做資料分析,便隨手把記錄下來的常用函式整理了一下,方便
Python sklearn資料分析中常用方法
一、資料處理 隨機劃分訓練集和測試集: from sklearn.model_selection import train_test_split X_all = data_train.drop(['Survived', 'PassengerId'],
利用Python進行資料分析 中的問題與解決方案彙總
</pre><span style="font-size:18px">1.<span style="color:rgb(85,85,85); font-family:'microsoft yahei'; line-height:35px"&g