1. 程式人生 > >福布斯系列之資料分析思路篇 | Python資料分析專案實戰

福布斯系列之資料分析思路篇 | Python資料分析專案實戰

福布斯每年都會發布福布斯全球上市企業2000強排行榜(Forbes Global 2000),這個排行榜每年釋出的時候,國內外總有新聞會熱鬧的討論一番,但很少見到比較全面的分析。

因此才有了這樣一個想法,蒐集近些年每年釋出的排行榜,做一個進一步的分析。

在準備做這個小小的專案前,先理了一下整個思路,大概可以分為下面這幾個步驟:
1. 資料採集
2. 原始資料完整性檢查
3. 資料清洗、整理
4. 從不同角度對資料進行分析
5. 資料視覺化
6. 總結

整個分析過程會涉及多篇文章,主要使用Python來進行分析。

資料採集 主要涉及的python庫包括 requests,BeautifulSoup,csv,以及一些其他常用工具。

資料完整性檢查,包括不同資料來源的對比,以及其他一些常識性的知識。需要對比資料量的多少是否完整,以及有些資料是否缺失。

當然,在拿到資料的初期,其實只能做一個初步的判斷,有些內容是在整個分析過程中發現的。

資料清洗與整理,主要用到Pandas、Numpy以及其他常用庫和函式。由於資料比較雜亂,資料清洗與整理涉及的內容比較多,可以說是整個福布斯系列的重點之一。

前文的初步整理2016年資料,也是整個資料清理與整理內容的一部分。

同時,這個也印證了通常我們所說的資料清洗與整理可能佔整個分析的50~80%。

資料分析與視覺化,經常是伴隨在一起的。主要根據不同分析目的進行分析與視覺化。用到的工具包括Pandas、Numpy、Matplotlib、Seaborn以及其他一些相關庫。

希望能通過福布斯系列的實戰來對資料分析的知識點與工具作一個簡單的示例整理與分享。

敬請關注福布斯系列的後續文章

如果您喜歡我的文章,歡迎關注我的微信公眾號“Python資料之道”(ID:PyDataRoad)。

相關推薦

系列資料分析思路 | Python資料分析專案實戰

福布斯每年都會發布福布斯全球上市企業2000強排行榜(Forbes Global 2000),這個排行榜每年釋出的時候,國內外總有新聞會熱鬧的討論一番,但很少見到比較全面的分析。 因此才有了這樣一個想法,蒐集近些年每年釋出的排行榜,做一個進一步的分析。 在準

Python項目實戰系列數據采集

sce nmp mgr 上市 sts nor 頁面數據 都差不多 afa 1 數據采集概述 開始一個數據分析項目,首先需要做的就是get到原始數據,獲得原始數據的方法有多種途徑。比如: 獲取數據集(dataset)文件 使用爬蟲采集數據 直接獲得excel、

安全系列wifi破解思路

onf 監控 pen 顯示 ror aircrack HR check 插入 聲明:此文章僅供研究學習和技術交流,請勿用於破解他人 WIFI 密碼!違反法律,一切後果自負! 一.準備工作 1. 硬件準備 無線網卡:一般筆記本自帶的無線網卡不支持監聽模式,所以要使用一個外置

從370億美元身價跌至21億美元,瑞波聯合創始人Chris Larsen仍舊入選了《400富豪榜》

在今年的《福布斯400富豪榜》中,瑞波聯合創始人Chris Larsen成功入選,排名第383位,成為第一位憑藉加密貨幣資產上榜的富豪。 《福布斯》在上週釋出了最新版《福布斯400富豪榜》榜單,該榜單估計Larsen的身價是21億美元。亞馬遜創始人傑夫·貝索斯(Jeff

釋出全球50位科技女性,谷歌前任首席AI科學家李飛飛上榜!

今天在世界上工作的許多頂尖技術人員都是女性 - 他們不願意滿足於現狀。 2018年世界排名前50位的女性技術人員擁有豐富的連續創業者,他們繼續磨練自己的STEM技能,建立業務,促進創新並指導下一代變革推動者。 從區塊鏈到生物技術,這個國際榜單列表正在以他們所愛的方式工作,從而超越了這一點。

C#會重蹈覆轍嗎?系列2:反射及元資料的效能問題

理清幾個基本點 在開始談論效能問題之前,有必要首先理清幾個基本點。我們談C#,就是在談.NET Framework(或者更準確一點是CLR,因為.NET Framework除了CLR還包括BCL);談.NET Framework(CLR),也就是在談C#。因為支撐C#語法之後的就是整個CLR的機制。因此

Spring系列Spring框架和SpringAOP整合過程分析(十二)

轉載請註明出處:https://blog.csdn.net/zknxx/article/details/80808447 在這篇文章中我們接著上一篇的文章說。在上一篇文章中我們提到了getAdvicesAndAdvisorsForBean這個方法,這個方法的內

Spring系列Spring框架和SpringAOP整合過程分析(十)

轉載請註明出處:https://blog.csdn.net/zknxx/article/details/80724180 在開始這個系列之前大家先想一下我們是怎麼在專案中使用SpringAOP的(這裡的分析都是基於AspectJ註解的)。我們需要在我們的Spr

算法系列二十一:實驗資料與曲線擬合

12.1 曲線擬合12.1.1 曲線擬合的定義        曲線擬合(Curve Fitting)的數學定義是指用連續曲線近似地刻畫或比擬平面上一組離散點所表示的座標之間的函式關係,是一種用解析表示式逼近離散資料的方法。曲線擬合通俗的說法就是“拉曲線”,也就是將現有資料透過

2016中國名人榜-中國明星排行榜

        福布斯Forbes釋出了2016年度最新的中國明星排行榜權威榜單,排名依據明星作品,曝光度,商業代言等因素,范冰冰排名第一,小公舉周杰倫排在第二名,謝霆鋒排名第三,成龍位於第四名,教主黃曉明第五名,孫儷第六名,趙薇第七名,劉德華排在第八名,小鮮肉李易峰排名

ABP(現代ASP.NET樣板開發框架)系列16、ABP應用層——資料傳輸物件(DTOs)

基於DDD的現代ASP.NET開發框架--ABP系列之16、ABP應用層——資料傳輸物件(DTOs) ABP是“ASP.NET Boilerplate Project (ASP.NET樣板專案)”的簡稱。 資料傳輸物件(Data Transfer Objects)用於應用層

ABP(現代ASP.NET樣板開發框架)系列13、ABP領域層——資料過濾器(Data filters)

基於DDD的現代ASP.NET開發框架--ABP系列之13、ABP領域層——資料過濾器(Data filters) ABP是“ASP.NET Boilerplate Project (ASP.NET樣板專案)”的簡稱。 介紹 在資料庫開發中,我們一般會運用軟刪除(soft

富豪榜:24歲中國女孩成最年輕富豪

去年底在香港上市的內房股龍光地產主席紀海鵬女兒、非執行董事紀凱婷更以僅24歲之齡,取代fb另一創辦人莫斯科維茨,成為榜上最年輕富豪。 圖為龍光地產執行董事紀海鵬(中)。圖片來源:龍光地產公司網站 本報綜合報道美國《福布斯》雜誌昨日公佈了2014年全球億萬富豪榜,微軟創始

:歷史最有影響20企業家

《福布斯》雜誌日前公佈了歷史上最有影響力的20位企業家。亨利.福特 (Henry Ford)、J.P.摩根 (J. P. Morgan)和雷.克洛克( Ray Kroc)名列前茅。     福特汽車公司創始人亨利.福特 (Henry Ford) 位於最有影響力商人排行榜的第一

Android系列SQLite與Android Studio的資料互動

一、把db放在res的下方創一個raw資料夾,裡面用來放db 二、創一個DbHelper類,實際程式碼如下: public class DbHelper extends SQLiteOpenHelper{ /** *

Dubbo學習系列十六(ELK海量日誌分析框架)

  外賣公司如何匹配騎手和訂單?淘寶如何進行商品推薦?或者讀者興趣匹配?還有海量資料儲存搜尋、實時日誌分析、應用程式監控等場景,Elasticsearch或許可以提供一些思路,作為業界最具影響力的海量搜尋與分析產品,搜尋軟體公司 Elastic 上市了!首日市值翻倍!Elastic 從小工具「逆襲」

openlayers入門開發系列地圖示繪

本篇的重點內容是利用openlayers實現地圖示繪功能,效果圖如下: 實現思路: 標繪介面設計以及標繪面板控制  <!-- 標繪面板 --> <div style="position:absolute;right:180px;top:80px;disp

java多執行緒系列模式|第三: Producer-Consumer pattern

生產者-消費者模式 含義:顧名思義,生產者用來生產資料,可能有一到多個,消費者用來消費資料,也可能有多個,中間會有一個“橋樑參與者”,作為資料的存放以及執行緒之間的同步和協調。 範例程式行為: 廚師(MakerThread)做蛋糕,做好後放在桌子(Table)上 桌子

敏捷開發一千零一問系列三十四:如何弄清楚專案需求(需求開發步驟)?

這是敏捷開發一千零一問系列的第三十三篇。(在這裡提問,之一,之二,之三,問題總目錄)也是敏捷開發使用者故事系列的第十篇(欄目目錄)。問題需求清晰到什麼程度可以進行開發?一定要弄清楚需求才能開發嗎?怎樣才能弄清楚需求?注意下面的分析是在基於合同的專案開發的語境中的。產品和網際網

2018最新Python資料分析實戰教程視訊 python資料分析班視訊 Python資料分析基礎教程 利用Python進行資料分析

系列一:《python資料分析基礎與實踐》章節1Python概況課時2Python簡介章節2Python安裝課時3安裝Anaconda課時4使用Anaconda章節3資料準備課時5資料型別 – 布林型課時6資料型別 – 數值型課時7資料型別 – 字元型課時8資料結構 – List課時9資料結構 – Tuple