大資料和人工智慧
Hadley Wickham 提出了分析Tidy Tuesday資料集的重要建議。Tidy Tuesday是一個由R for Data Science線上學習社群(特別是Thomas Mock)執行的一個很棒的專案,它每週都會發佈一個有趣的資料集。
我現在釋出了我的第一個這樣的截圖視訊,探索本週的Tidy Tuesday資料集(“挑選大學專業經濟指南”背後的資料)。你也可以找到我在這裡製作的R Markdown。
我製作了一些我發現非常有趣的數字。我看了一下各專業畢業生的收入分配情況。
我花了一些時間來研究不同專業的性別分佈差異,這也包含在資料中。
最後,我建立了一個互動式散點圖,其中包含了一個情節包,將一個領域中女性的比例與工資中位數進行了比較。
一些注意事項和觀察:
-
這不是R教程:如果我在教R,我會提前做好準備並且在材料中移動得更慢。這是一個案例研究,我將如何深入研究資料集並從中學習,包括我大聲思考並決定採取何種路線的步驟。如果有的話,它更接近“speedrun”。
-
我喜歡展示我的工作順序:我寫部落格文章有點“從裡到外”:我從幾個數字開始,然後弄清楚我應該開始的預處理,我總是從帖子中移出無趣的資料或附錄。很高興看到分析如何形成並最終看起來像一個有組織的最終產品。
-
我遇到的錯誤比我預期的要少: 現場截圖的一部分令人興奮的是“任何事情都可能出錯”(部分原因是我提前記錄了第一個而不是現場直播是為了減輕壓力!)我是我非常精通我在本次會議中使用的工具(dplyr和ggplot2),所以我只是陷入了一些錯誤(儘管我確實找到了一些非生產性的路線)。
我有足夠的樂趣,我想我會再次這樣做(雖然可能不是每週都這樣)。考慮到這一點,我已經學到了一些可以改善我未來截圖視訊的課程:
-
我說得太快了:這對我來說是一個反覆出現的問題。當我在觀眾面前講話時,我可以看到人們的臉,並且自己的節奏更好一點,但是當我在錄製它的時候“獨自一人”很困難。我已經知道這對非本地聽眾來說尤其困難,我會嘗試更有意識並且說話更慢!
-
我需要更好地關注時間:截圖大約80分鐘(我最初計劃在一個小時,我可能會在未來瞄準)。我對有關長度的反饋感興趣,以及人們是否覺得整個會議都很有趣。