深入淺出資料分析(美)米爾頓著pdf
下載地址:網盤下載
內容簡介
編輯 《深入淺出資料分析》以類似“章回小說”的活潑形式,生動地向讀者展現優秀的資料分析人員應知應會的技術:資料分析基本步驟、實驗方法、最優化方法、假設檢驗方法、貝葉斯統計方法、主觀概率法、啟發法、直方圖法、迴歸法、誤差處理、相關資料庫、資料整理技巧;正文以後,意猶未盡地以三篇附錄介紹資料分析十大要務、R工具及ToolPak工具,在充分展現《深入淺出資料分析》目標知識以外,為讀者搭建了走向下一步深入研究的橋樑。 《深入淺出資料分析》構思跌宕起伏,行文妙趣橫生,無論讀者是職場老手,還是業界新人;無論是字斟句酌,還是信手翻閱,都能跟著文字在職場中走上幾回,體味資料分析領域的樂趣與挑戰。編輯推薦
媒體推薦
作品目錄
編輯 總目錄 序言 I 1 資料分析引言:分解資料 1 2 實驗:檢驗你的理論 37 3 最優化:尋找最大值 75 4 資料圖形化:圖形讓你更精明 111 5 假設檢驗:假設並非如此 139 6 貝葉斯統計:穿越第一關 169 7 主觀概率:信念數字化 191 8 啟發法:憑人類的天性作分析 225 9 直方圖:數字的形狀 251 10 迴歸:預測 279 11 誤差:合理誤差 315 12 相關資料庫:你能關聯嗎? 359 13 整理資料:井然有序 385 附錄A 尾聲:正文未及的十大要訣 417 附錄B 安裝R:啟動R! 427 附錄C 安裝Excel分析工具:ToolPak 431 細分目錄及各章引子 序言 大腦對待資料分析的態度。一邊是你努力想學會一些知識,一邊是你 的大腦忙著開小差。你的大腦在想:“最好把位置留給更重要的事, 像該離哪些野生動物遠點啊,像光著身子滑雪是不是個壞點子啊。” 既然如此,你該如何引誘你的大腦意識到,懂得資料分析是你安身立 命的根本? 誰適合閱讀本書? II 我們瞭解你在想什麼 III 元認知 V 征服大腦 VII 自述 VIII 技術顧問組 X 致謝 XI 1.分解資料資料分析引言 Acme化妝品公司需要你出力 2 執行長希望資料分析師幫他提高銷量 3 資料分析就是仔細推敲證據 4 確定問題 5 客戶將幫助你確定問題 6 Acme公司執行長給了你一些反饋 8 把問題和資料分解為更小的組塊 9 現在再來看看了解到的情況 10 評估組塊 13 分析從你介入的那一刻開始 14 提出建議 15 報告寫好了 16 執行長欣賞你的工作 17 一則新聞 18 執行長確信的觀點讓你誤入歧途 20 你對外界的假設和你確信的觀點就是你的心智模型 21 統計模型取決於心智模型 22 心智模型應當包括你不瞭解的因素 25 執行長承認自己有所不知 26 Acme給你發來了一長串原始資料 28 深入挖掘資料 31 泛美批發公司確認了你的印象 32 回顧你的工作 35 你的分析讓客戶作出了英明的決策 36 2.實驗 檢驗你的理論 你能向別人揭示自己堅信的信念嗎?正在進行實證檢驗?做個好實驗吧,再 沒有什麼辦法能像一個好實驗那樣,既能解決問題又能揭示事物的真正執行 規律。一個好實驗往往能讓你擺脫對觀察資料的無限依賴,能幫助你理清因 果聯絡;可靠的實證資料將讓你的分析判斷更有說服力。 咖啡業的寒冬到了! 38 星巴仕董事會將在三個月內召開 39 星巴仕調查表 41 務必使用比較法 42 比較是破解觀察資料的法寶 43 價值感是導致銷售收入下滑的原因嗎? 44 一位典型客戶的想法 46 觀察分析法充滿混雜因素 47 店址可能對分析結果有哪些影響 48 拆分資料塊,管理混雜因素 50 情況比預料的更糟! 53 你需要做一個實驗,指出哪種策略最有效 54 星巴仕執行長已經急不可待 55 星巴仕降價了 56 一個月後…… 57 以控制組為基準 58 避免解僱123 61 讓我們重新做一次實驗 62 一個月後… 63 實驗照樣會毀於混雜因素 64 精心選擇分組,避免混雜因素 65 隨機選擇相似組 67 隨機訪談 68 準備就緒,開始實驗 71 結果在此 72 星巴仕找到了與經驗吻合的銷售策略 73 3.尋找最大值最優化 有些東西人人都想多多益善。為此我們上下求索。要是能用數字表示我 們不斷追求的東西——利潤、錢、效率、速度等,實現更高目標的機會 就在眼前。有一種資料分析工具能夠幫助我們調整決策變數,找出解決 方案和優化點,使我們最大限度地達到目標。本章將使用這樣一種工具, 並通過強大的電子表格軟體包Solver來實現這個工具。 現在是浴盆玩具遊戲時間 76 你能控制的變數受到約束條件的限制 79 決策變數是你能控制的因素 79 你碰到了一個最優化問題 80 藉助目標函式發現目標 81 你的目標函式 82 列出有其他約束條件的產品組合 83 在同一張圖形裡繪製多種約束條件 84 合理的選擇都出現在可行區域裡 85 新約束條件改變了可行區域 87 用電子表格實現最優化 90 Solver一氣呵成解決最優化問題 94 利潤跌穿地板 97 你的模型只是描述了你規定的情況 98 按照分析目標校正假設 99 提防負相關變數 103 新方案立竿見影 108 你的假設立足於不斷變化的實際情況 109 4.資料圖形化 圖形讓你更精明 資料表遠非你所需。你的資料龐雜晦澀,各種變數讓你目不暇接,應付堆積 如山的電子表格不只令人厭倦不堪,而且確實浪費時間。相反,與僅僅使用 電子表格不同,一幅用紙不多、栩栩如生的清晰影象,卻能讓你擺脫“一葉 障目,不見泰山”的煩惱。 新軍隊需要優化網站 112 結果面世,資訊設計師出局 113 前一位資訊設計師提交的三份資訊圖 114 這些圖形隱含哪些資料? 115 體現資料! 116 這是前一位設計師主動提供的意見 117 資料太多絕不會成為你的問題 118 讓資料變美觀也不是你要解決的問題 119 資料圖形化的根本在於正確比較 120 你的圖形已經比打入冷宮的圖形更有用 123 使用散點圖探索原因 124 最優秀的圖形都是多元圖形 125 同時展示多張圖形,體現更多變數 126 圖形很棒,但網站掌門人仍不滿意 130 優秀的圖形設計有助於思考的原因 131 實驗設計師出聲了 132 實驗設計師們有自己的假設 135 客戶欣賞你的工作 136 訂單從四面八方滾滾而來! 137 5.假設並非如此假設檢驗 世事紛紜,真假難辨。人們需要用龐雜多變的資料預測未來,然而免不了 剪不斷,理還亂。正因如此,分析師不會簡單聽信浮於表面的解釋,也不 會想當然地認可這些解釋的真實性:通過資料分析的仔細推理,分析師能 夠異常細緻地評估大量備選答案,然後將手頭的一切資訊整合到各種模 型中。接下來要學的證偽法即是一種切實有效的非直覺方法。 給我來塊“面板”…… 140 我們何時開始生產新手機面板? 141 PodPhone不希望別人看透他們的下一步行動 142 我們得知的全部資訊 143 電膚的分析與資料相符嗎? 144 電膚得到了機密《戰略備忘錄》 145 變數之間可以正相關,也可以負相關 146 現實世界中的各種原因呈網路關係,而非線性關係 149 假設幾個PodPhone備選方案 150 用手頭的資料進行假設檢驗 151 假設檢驗的核心是證偽 152 藉助診斷性找出否定性最小的假設 160 無法一一剔除所有假設,但可以判定哪個假設最強 163 你剛剛收到一條圖片簡訊…… 164 即將上市! 167 6.貝葉斯統計 穿越第一關 資料收集工作永不停息。必須確保每一個分析過程都充分利用所蒐集到的與 問題有關的資料。雖說你已學會了證偽法,處理異質資料來源不在話下,可要 是碰到直接概率問題該怎麼辦?這就要講到一個極其方便的分析工具,叫做 貝葉斯規則,這個規則能幫助你利用基礎概率和波動資料做到明察秋毫。 醫生帶來惱人的訊息 170 讓我們逐條細讀正確性分析 173 蜥蜴流感到底有多普遍? 174 你計算的是假陽性 175 這些術語說的都是條件概率 176 你需要算算 177 1%的人患蜥蜴流感 178 你患蜥蜴流感的機率仍然非常低 181 用簡單的整數思考複雜的概率 182 蒐集到新資料後,用貝葉斯規則處理基礎概率 182 貝葉斯規則可以反覆使用 183 第二次試驗結果:陰性 184 新試驗的正確性統計值有變化 185 新資訊會改變你的基礎概率 186 放心多了! 189 7. 信念數字化 主觀概率 虛擬資料未嘗不可。真的。不過,這些數字必須描述你的心智狀態,表 明你的信念。主觀概率就是這樣一種將嚴謹融入直覺的簡便辦法,具體 做法馬上介紹。隨著講解的進行,你將學會如何利用標準偏差評估資料 分佈,前面學過的一個更強大的分析工具也會再次登臺亮相。 背水投資公司需要你效力 192 分析師們相互叫陣 193 主觀概率體現專家信念 198 主觀概率可能表明:根本不存在真正的分歧 199 分析師們答覆的主觀概率 201 執行長不明白你在忙些什麼 202 執行長欣賞你的工作 207 標準偏差量度分析點與平均值的偏差 208 這條新聞讓你措手不及 213 貝葉斯規則是修正主觀概率的好辦法 217 執行長完全知道該怎麼處理這條新資訊了 223 俄羅斯股民歡欣鼓舞! 224 8.啟發法 憑人類的天性做分析 現實世界的風雲變幻讓分析師難以料事如神。總有一些資料可望不可及,即 使有所能及,最優化方法也往往艱深耗時。所幸,生活中的大部分實際思維 活動並非以最理性的方式展開,而是利用既不齊全也不確定的資訊,憑經驗 進行處理,迅速做出決策。奇就奇在這些經驗確實能夠奏效,因此也是進行 資料分析的重要而必要的工具。 邋遢集向市議會提交了報告 226 邋遢集確實把鎮上打掃得乾乾淨淨 227 邋遢集已經計量了自己的工作效果 228 他們的任務是減少散亂垃圾量 229 計量垃圾量不可行 230 問題刁鑽,回答簡單 231 資料邦市的散亂垃圾結構複雜 232 無法建立和運用統一的散亂垃圾計量模型 233 啟發法是從直覺走向最優化的橋樑 236 使用快省樹 239 是否有更簡單的方法評估邋遢集的成就? 240 固定模式都具有啟發性 244 分析完畢,準備提交 246 看來你的分析打動了市議會的議員們 249 9. 數字的形狀直方圖 直方圖能說明什麼?資料的圖形表示方法不計其數,直方圖是其中出類 拔萃的一種。直方圖與柱狀圖有些相似,能迅速而有效地彙總資料。接 下來你將用這種小巧而實用的圖形量度資料的分佈、差異、集中趨勢等。 無論資料集多麼龐大,只要畫一張直方圖,就能“看出”資料中的奧妙。 讓我們在本章中用一個新穎、免費、無所不能的軟體工具繪製直方圖。 員工年度考評即將到來 252 伸手要錢形式多樣 254 這是歷年加薪記錄 255 直方圖體現每組資料的發生頻數 262 直方圖不同區間之間的缺口即資料點之間的缺口 263 安裝並執行R 264 將資料載入到R程式 265 R建立了美觀的直方圖 266 用資料的子集繪製直方圖 271 加薪談判有回報 276 談判要求加薪對你意味著什麼? 277 10.迴歸 預測 洞悉一切,未卜先知。迴歸分析法力無邊,只要使用得法,就能幫助你預測 某些結果值。若與控制實驗同時使用,迴歸分析還能預測未來。商家狂熱地 運用迴歸分析幫助自己建立模型,預測客戶行為。本章即將讓你看到,明智 地使用迴歸分析,確實能夠帶來巨大效益。 你打算怎麼花這些錢? 280 以獲取大幅度加薪為目的進行分析 283 稍等片刻……加薪計算器! 284 這個演算法的玄機在於預測加薪幅度 286 用散點圖比較兩種變數 292 直線能為客戶指明目標 294 使用平均值圖形預測每個區間內的數值 297 迴歸線預測出人們的實際加薪幅度 298 迴歸線對於具有線性相關特點的資料很有用 300 你需要用一個等式進行精確預測 304 讓R建立一個迴歸物件 306 迴歸方程與散點圖密切相關 309 加薪計算器的演算法正是迴歸方程 310 你的加薪計算器沒有照計劃行事…… 313 11. 合理誤差誤差 世界錯綜複雜。預測有失精準並不稀奇。不過,如果在進行預測的時候 指出誤差範圍,你和你的客戶就不僅能知道平均預測值,還能知道該誤 差造成的典型偏差,指出誤差可以讓預測和信念更全面。通過本章講授 的工具,你還會懂得如何控制誤差及如何儘量降低誤差,從而提高預測 可信度。 客戶大為惱火 316 你的加薪預測演算法做了什麼? 317 客戶組成 318 要求加薪25%的傢伙不在模型範圍內 321 如何對待想對資料範圍以外的情況進行預測的客戶 322 由於使用外插法而慘遭解僱的傢伙冷靜下來了 327 你只解決了部分問題 328 扭曲的加薪結果資料看起來是什麼樣子? 329 機會誤差=實際結果與模型預測結果之間的偏差 330 誤差對你和客戶都有好處 334 機會誤差訪談 335 定量地指定誤差 336 用均方根誤差定量表示殘差分佈 337 R模型知道存在均方根誤差 338 R的線性模型彙總展示了均方根誤差 340 分割的根本目的是管理誤差 346 優秀的迴歸分析兼具解釋功能和預測功能 350 相比原來的模型,分割槽模型能更好地處理誤差 352 你的客戶紛紛回頭 357 12.你能關聯嗎? 關係資料庫 如何組織變化多端的多變數資料?一張電子資料表只有兩維資料:行和 列。如果你的資料包括許多方面,則表格格式很快就會過時。在本章, 你會看出電子表格很難管理多變數資料,還能看到關係資料庫管理系統相關推薦
深入淺出資料分析(美)米爾頓著pdf
下載地址:網盤下載 內容簡介 編輯 《深入淺出資料分析》以類似“章回小說”的活潑形式,生動地向讀者展現優秀的資料分析人員應知應會的技術:資料分析基本步驟、實驗方法、最優化方法、假設檢驗方法、貝葉斯統計方法、主觀概率法、啟發法、直方圖法、迴歸法、誤差處理、相關
Udacity資料分析(入門)-分析 A/B 測試結果
分析A/B測試結果 目錄 簡介 I - 概率 II - A/B 測試 III - 迴歸 簡介 對於這個專案,你將要了解的是電子商務網站執行的 A/B 測試的結果。你的目標是通過這個 notebook 來幫助公司弄清楚他們是否應該使用新的頁
資料分析(一)豆瓣華語電影分析
本文首發於『運籌OR帷幄』公眾號,大家也可前往公眾號檢視,《用資料帶你瞭解電影行業—華語篇》。 在之前,我們已經用通過爬蟲獲取了豆瓣華語電影共33133部電影的資料,具體爬蟲介紹請見之前的博文,爬蟲實戰(一)——利用scrapy爬取豆瓣華語電影。本文對爬蟲過程進行簡要概述後,對這部分資料
bigdata資料分析(一):Java環境配置
Java環境 1.下載jdk(用FileZilla工具連線伺服器後上傳到需要安裝的目錄) 在 /opt/deploy 下新建 java 資料夾: # mkdir / opt/deploy /java 解壓命令:tar zxvf 壓縮包名稱 (例如:tar zxvf jdk-8u191-
微信好友資料打包下載--微信資料分析(二)
簡述 其實要這麼做的原因就是,我們之前操作的每次都要登入確認什麼的,比較麻煩。所以,如果我們能夠一次性將所有的資料都下載下來,然後儲存起來,那麼就可以直接操作資料,而不需要等待拿資料的過程了~ 程式碼
微信好友個性標籤詞雲--微信資料分析(四)
簡述 程式碼 構建詞雲的時候,採用的背景圖 生成的效果為: 可以發現,我的微信朋友們的雖然表面上看起來一個個都是逗比,但是個性標籤似乎都是慢慢的正能量哇~ 下面使用的時候,我用的是我之前已經打包好
Python 金融資料分析(二)
1.樣本資料位置 series = Series() series.mean() # 均數 series.median() # 中位數 series.mode() # 眾數 series.quantil
企業如何運用好資料分析(二)
在前面提到的內容中我們不難發現數據分析能夠在企業發揮很大的作用,但是對於資料分析還是需要學習很多的知識,尤其是在進行資料分析的時候需要重視細節。因為資料分析需要嚴謹的態度,如果忽視了細節,那麼就會一著不慎滿盤皆輸。在表達資料分析結果的時候我們會用到很多的圖表。這樣才能夠做好資料分析。在這篇文章中我們會為大
資料分析(三)
Pandas的資料結構 匯入pandas: 資料分析三劍客 numpy pandas matplotlib # 三劍客 import numpy as np import pandas as pd import matplotlib.pyplot as plt
資料分析(二)
Numpy:Numeric Python 引言:要學好機器學習,先打好資料分析的基礎,打好基礎才能實現後面那些經驗的功能 一、匯入 匯入:import numpy as np 檢視版本:np.__ version __ 二、陣列ndarray 1、使用np.ar
資料分析(四)
之前我們學習了numpy,pandas。現在能自己引入資料分析的三劍客不?試一試吧,想不起來,就要看看前面的呦。 來吧,我們一起匯入一下吧! import numpy as np import pandas as pd from pandas import Se
企業如何運用好資料分析(一)
現階段,由於科技的進步以及社會的發展,使得網際網路越來越發達。網際網路時代衍生了很多的新興詞彙,分別是大資料、資料分析、物聯網、人工智慧等。現如今我們的社會生活到處都滲透著中大資料、資料分析和人工智慧,越來越多的企業都開始重視資料分析。利用好資料分析能夠甩開競爭對手,從而使得自己的企業
Spark快速大資料分析(一)
楔子 Spark快速大資料分析 前3章內容,僅作為學習,有斷章取義的嫌疑。如有問題參考原書 Spark快速大資料分析 以下為了打字方便,可能不是在注意大小寫 1 Spark資料分析導論 1.1 Spark是什麼 Spark是一個用來實現快速而通用的叢
資料分析(五)
週末,終於閒了下來。突然想起資料分析的知識還沒整理完。好吧,廢話就不多說了,我們繼續總結相關的知識點。 前面學了series和dataframe,今天我們先說說他們的運算: 【重要】 使用Python操作符:以行為單位操作,對所有行都有效。(類似於numpy中二
創業公司做資料分析(四)ELK日誌系統
作為系列文章的第四篇,本文將重點探討資料採集層中的ELK日誌系統。日誌,指的是後臺服務中產生的log資訊,通常會輸入到不同的檔案中,比如Django服務下,一般會有nginx日誌和uWSGI日誌。這些日誌分散地儲存在不同的機器上,取決於服務的部署情況了。如果
創業公司做資料分析(一)開篇
瞭解“認知心理學”的朋友應該知道:人類對事物的認知,總是由淺入深。然而,每個人思考的深度千差萬別,關鍵在於思考的方式。通過提問三部曲:WHAT->HOW->WHY,可以幫助我們一步步地從事物的表象深入到事物的本質。比如學習一個新的技術框架,需要逐步
創業公司做資料分析(二)運營資料系統
作為系列文章的第二篇,本文將首先來探討應用層中的運營資料系統,因為運營資料幾乎是所有網際網路創業公司開始做資料的起點,也是早期資料服務的主要物件。本文將著重回顧下我們做了哪些工作、遇到過哪些問題、如何解決並實現了相應的功能。 早期資料服務 產品上
創業公司做資料分析(三)使用者行為資料採集系統
作為系列文章的第三篇,本文將重點探討資料採集層中的使用者行為資料採集系統。這裡的使用者行為,指的是使用者與產品UI的互動行為,主要表現在Android App、IOS App與Web頁面上。這些互動行為,有的會與後端服務通訊,有的僅僅引起前端UI的變化,但是
創業公司做資料分析(六)資料倉庫的建設
作為系列文章的第六篇,本文將重點探討資料處理層中資料倉庫的建設。在第二篇運營資料系統一文,有提到早期的資料服務中存在不少問題,雖然在做運營Dashboard系統時,對後臺資料服務進行了梳理,構建了資料處理的底層公共庫等,但是仍然存在一些問題: 中間資料流
創業公司做資料分析(五)微信分享追蹤系統
作為系列文章的第五篇,本文重點探討資料採集層中的微信分享追蹤系統。微信分享,早已成為移動網際網路運營的主要方向之一,以Web H5頁面(下面稱之為微信海報)為載體,利用微信龐大的好友關係進行傳播,實現宣傳、拉新等營銷目的。以下圖為例,假設有一個海報被分享到了