怎樣迅速成為一名數據分析師?
數據分析最重要的可能並非你熟悉的編程工具、分析軟件。或者統計學知識,而是清楚你所使用的統計知識(統計學、計量、時間序列、非參數等等)背後的原理、如果及其局限性,知道各種數據分析工具(比如數據挖掘)能帶來什麽,不能帶來什麽,看到一組統計檢驗的結果你能言說什麽,不能言說什麽。
這一切的背後,須要一套完整的「科學」邏輯框架,讓你了解自己手中的工具的本質。你才幹從數據中「正確地」發現有效的信息,而不是胡亂地使用一大堆自己都搞不清楚的工具來堆砌分析結果,這樣得到分析結果不僅無用,並且有害。
知道了這些後,希望成長為「數據分析師」,就須要著手訓練自己的能力和洞察力。既然是「數據分析師」,那就分別從「數據」和「分析」雙方面入手。
「數據」當然包括了數據收集、處理、可視化等內容,每一個環節對於最後的結果都有關鍵性的影響。
當中涉及的技術性內容僅僅是一部分而已,更重要的是你要理解數據收集(是否存在採樣偏差?怎樣糾正或者改進?)、處理(是否有漏洞或異常情況沒有考慮?)背後的邏輯。
比如:假設分析股票數據用於設計交易策略,那麽你不僅須要明確數據處理本身的問題,還要清楚金融市場的基本知識。比如,使用股票價格時,究竟要用收盤價。還是復權價;復權價的話要用前復權價還是後復權價。這些選擇與數據分析沒有太大的關系,純粹決定於你分析的目的是什麽。因此你要充分了解這些概念背後的邏輯、動機是什麽。才幹正確地依據自己的目的作出選擇。
數據可視化很多其它的是一門藝術:怎樣把信息以最恰當的方式呈現給希望獲得這些信息的人。
首先,你要充分理解這些信息到底是什麽。有什麽特點。你才幹較為恰當的選擇採用的可視化工具。
另外一部分就是「分析」。當然就是各種分析模型,還是須要了解這些模型背後的邏輯。要放到整個項目的上下文中去看,而不是單純地在模型中看。
總而言之,「理解」數據以及當中的信息是很重要的,這決定了你的分析和呈現的方法是否合適,決定了最後的結論是否可靠。
如今能夠回答題主的問題了:成長為一個數據分析師,要註意「理解」你的知識,形成一個系統,而不是像機器人一樣機械地胡亂套用模型。在這個理念下訓練你的編程能力,了解你所分析對象的原理和盡可能多的細節。在這個基礎上,才幹談數據分析。
想從事大數據工作,怎樣自學打基礎
海量數據分成兩塊,一是系統建設技術。二,海量數據應用。
先說系統建設,如今主流的技術是HADOOP。主要基於mapreduce的分布式框架。眼下能夠先學習這個。
可是我的觀點,在分布式系統出來之前。主要是集中式架構。如DB2,oracle。為什麽如今用分布式架構,那是由於如今集中式架構受限於IO性能,出來速度慢,假設又一種硬件技術,能夠非常快地處理海量數據。性能上能滿足需求,那麽集中式架構優於分布式架構,由於集中式架構穩定。運維壓力小。如今的集中式架構要麽性能達不到要求。要麽就是過於昂貴。我期待一種技術出現,能夠非常快地傳輸和處理數據。那麽集中式架構將再次進入人們眼球。再說海量數據應用。
海量數據應用主要是數據挖掘和機器算法。
詳細有不同的應用場景,如個性化搜索和推薦,社交網絡發現,精準營銷,精準廣告。實時最優路徑,人工智能等等。看你想做系統支撐技術還是與業務結合的應用技術。
假設如今學系統建設技術,能夠讀下例如以下書籍:
假設學數據挖掘和機器算法,推薦先看數據挖掘導論,統計分析原理,Mahout,R,MATLAB
怎樣迅速成為一名數據分析師?