【DataScience學習筆記】Coursera課程《數據科學家的工具箱》 約翰霍普金斯大學——Week3 Conceptual Issues課堂筆記
Coursera課程《數據科學家的工具箱》 約翰霍普金斯大學
Week3 Conceptual Issues
Types of Questions
Types of Data Science Questions
- 描述性分析(Descriptive)
在沒有額外的統計建模的基礎上,這些描述通常沒什麽普遍性。
美國的人口普查就是一個描述性分析的例子。
- 探索性分析(Exploratory)
在該分析類型中,我們試著去觀察數據並發現之前未知的關系,因此這種分析有利於發現新的關聯,同時也有助於確定今後的數據科學項目。
- 推斷分析(Inferential)
推斷分析的目標是在少量觀察的基礎上,根據一小部分數據,將得到的信息進行歸納、外推到更大的群體。
例子:美國的空氣汙染控制對平均壽命的影響。
- 預測分析(Predictive)
預測分析是利用某些對象收集到的數據,去預測下次觀察很可能碰到的另一個對象的值。
有一點需要註意,即使通過x預測到了y,也不能說是x導致了y。
- 因果分析(Causal)
這一分析類型就旨在了解,如果改變了一個變量的值會發生什麽?這會對另一個變量的值造成怎樣的改變?
實施因果分析的權威標準是,利用隨機研究或隨機對照試驗來確認因果關系。
- 機理分析(Mechanistic)
機理分析是要去理解變量的精確變化,和導致了其它變量精確變化的變量的過程。
機理分析最常見的應用範圍,可能是在物理或工程學領域,利用一些比較簡單的模型,就可以描述許多操作。
What is Data?
維基百科的定義
Data are values of qualitative or quantitative variables, belonging to a set of items.
定性變量是諸如原產國、性別或治療方法之類的東西。它們不一定是有序的,也不一定是測量值。
定量變量是諸如身高、體重和血壓等的數據。它們的測量值通常是連續的,在特定範圍裏的是有序的。
What About Big Data?
(基本沒有幹貨……)
Experimental Design
安利一個數據共享網站figshare
Confounding
比如說假如在某項研究中,我們統計了鞋號和識字能力。然後我們試著去發現,鞋號和識字能力之間的相關性。
可能我們確實觀察到了一些相關性,因為穿小號鞋的人可能會認識少一些的字。但是我們可能忽略了一點,年齡才是導致這個相關性的真正原因。因為嬰兒的鞋號非常小,識字能力也很低。再長大一點,需要更大號的鞋子,認識的字也更多,所以年齡才是真正的導致鞋號和識字能力之間相關性的混雜因素。
所以如果我們只統計鞋號和識字能力,然後去發現兩個變量之間的相關性,我們可能就誤入歧途了。這種情況稱作混雜(Confounding)。它關註於研究可能導致相關性的其它變量。
【DataScience學習筆記】Coursera課程《數據科學家的工具箱》 約翰霍普金斯大學——Week3 Conceptual Issues課堂筆記