大神自學後作《Python資料分析入門——從資料獲取到視覺化》
本書為資料猿推出的《每週一本書》欄目叢書。
歡迎大家推薦好書給我們,讓更多人受益。
【資料猿導讀】本書作者沈祥壯,自學Python兩年,以資料分析為主線,系統學習的資料的採集、處理、分析和視覺化。
編輯 | sharon
官網 | www.datayuan.cn
微信公眾號ID | datayuancn
這是一本務實之作,充分體現資料分析流程的各項環節,包含資料的採集、清洗和探索性分析,並通過大家耳熟能說的Python工具加以實操。更令人驚奇的是,本書的作者沈祥壯並非科班出身,他通過兩年自學,系統掌握了資料的採集、處理、分析和視覺化,真大神是也。
內容簡介
第1章主要講解了在Ubuntu和Windows系統下,Python整合開發環境的搭建。考慮到初學者容易為安裝第三方庫犯難,又介紹了三種簡單實用的方法來安裝這些常見的庫。接著對幾個後面要用到的高階語法進行了簡單介紹,為之後的應用打下基礎。
第2章集中講解了資料採集的流程,即網路爬蟲程式的設計與實現。首先本章沒有拘泥於使用Python的內建庫urllib庫進行實現,而是直接介紹了requests和其他更加簡捷強大的庫來完成程式的設計。在進階內容中,對常見的編碼問題、異常處理、代理IP、驗證碼、機器人協議、模擬登入,以及多執行緒等相關問題給出瞭解決的方案。
第3章講解資料的清洗問題。在具體講解清洗資料之前,先介紹了TXT、XLSX、JSON、CSV等各種檔案的匯入和匯出的方法,並介紹了Python與MySQL資料庫互動的方式。接著介紹了NumPy和pandas庫的基本使用方法,這是我們用於資料處理和科學計算的兩個強大的工具。最後綜合以上的學習介紹了資料的去重、缺失值的填補等經典的資料清洗方法。
第4章首先講解探索性資料分析的應用,並且簡單介紹了機器學習基本知識。然後演示如何應用sklearn庫提供的決策樹和最鄰近演算法來處理分類問題,並嘗試根據演算法原理手動實現最鄰近演算法。最後介紹如何使用pandas、matplotlib和seaborn這三個庫來實現資料的視覺化。
第5章是綜合性學習的章節,講解了三個小專案的完整實現過程,旨在通過操作生活中真正的資料來強化前面基礎內容的學習。
作者簡介
沈祥壯,自學Python兩年,以資料分析為主線,系統學習的資料的採集、處理、分析和視覺化。在研究統計機器學習理論的同理,使用Python語言實現了部分統計學習演算法。研究方向包括資料採集、資料探勘、統計機器學習及影象處理。
目錄
1 準備
1.1 開發環境搭建
1.2 Python基礎語法介紹
1.3 The Zen of Python
2 資料的獲取
2.1 爬蟲簡介
2.2 資料抓取實踐
2.3 爬蟲進階
2.4 爬蟲總結
3 資料的存取與清洗
3.1 資料存取
3.2 NumPy
3.3 pandas
3.4 資料的清洗
4 資料的分析及視覺化
4.1 探索性資料分析
4.2 機器學習入門
4.3 手動實現KNN演算法
4.4 資料視覺化
5 Python與生活
5.1 定製一個新聞提醒服務
5.2 Python與數學
5.3 QQ群聊天記錄資料分析
購買地址
京東:
https://item.jd.com/12330816.html
噹噹:
http://product.dangdang.com/25247679.html
作者郵箱[email protected]。
本書中使用的全部程式碼及相關資料已經託管至Github, 讀者可進入
https://github.com/shenxiangzhuang/PythonDataAnalysis進行下載。
6月12日,數字資產投資峰會:金融科技區塊鏈支援可持續發展-北京站即將開始,期待我們的見面
相關推薦
大神自學後作《Python資料分析入門——從資料獲取到視覺化》
本書為資料猿推出的《每週一本書》欄目叢書。歡迎大家推薦好書給我們,讓更多人受益。【資料猿導讀】本
python資料分析07--matplotlib繪圖和視覺化
python資料分析07–matplotlib繪圖和視覺化 一、簡介 資訊視覺化(也叫繪圖)是資料分析中最重要的工作之一。它可能是探索過程的一部分,例 如,幫助我們找出異常值、必要的資料轉換、得出有關模型的idea等。另外,做一個可互動的 資料視覺化也許是工作的最終目標。 m
爬取拉勾熱門城市“資料分析”崗位,並進行視覺化分析
首先,寫一個爬取崗位的爬蟲,如下:# -*- coding:utf-8 -*- from json import JSONDecodeError import requests import time import pandas as pd # 獲取儲存職位資訊的json
Python大資料分析——多執行緒獲取滬深股票歷史資料
要進行資料分析,得獲取資料。對於金融資料,我們有很多獲取方式,如雅虎金融,谷歌金融,QuantQuote,EODData,下面列出它們具體的地址:當然,如果要獲取國外金融資料,我們主要從上面這些網站上獲取;但如要獲取國內股票資料,下面有一個很方便的介面,且是用python寫的
AI新時代-大神教你使用python+Opencv完成人臉解鎖(附源碼)
判斷 剛才 src 學習 需要 亂七八糟 很多 request mbx 好吧,夥計們,我回來了。說我拖更不寫文章的可以過來用你的小拳拳狠命地捶我胸口.... 那麽今天我們來講關於使用python+opencv+face++來實現人臉驗證及人臉解鎖。代碼量同樣不多,你可以將這
2018最新大神教你用Python玩轉數據視頻教程
data arr 學習者 ui組件 array 字符 玩轉 統計 afr 本課程共分為5個模塊(實際課時為8周):Module 01: Python基礎本模塊主要討論Python的基本語言結構、數據類型、基本運算、條件和循環、函數和模塊等內容,用它們就可以寫一些有用的程序了
獨家 | Python資料分析入門指南
有一個朋友最近問到這個問題,我覺得把它公開出來對其他人也會有幫助。這是給完全不瞭解Python而想找到從零到一的最簡單的路徑的人的建議: 1. 在這裡(https://www.continuum.io/downloads)下載適用於你的作業系統的Python 3.X的Anaco
利用python 資料分析入門,詳細教程,教小白快速入門
這是一篇的資料的分析的典型案列,本人也是經歷一次從無到有的過程,倍感珍惜,所以將其詳細的記錄下來,用來幫助後來者快速入門! 資料的格式如下: 我們設定 一個trem or typedef為一條標籤,一行為一條記錄或者是鍵值對,以此為標準! 下面我們來對資料進行
Python地學分析 — 通過GPS資料分析鳥類行蹤 07
歡迎關注博主的微信公眾號:“智慧遙感”。 該公眾號將為您奉上Python地學分析、爬蟲、資料分析、Web開發、機器學習、深度學習等熱門原始碼。 本人的GitHub程式碼資料主頁(持續更新中,多給Star,多Fork): https://github.com/xbr2017
Python地學分析 — 建立向量資料緩衝區 06
歡迎關注博主的微信公眾號:“智慧遙感”。 該公眾號將為您奉上Python地學分析、爬蟲、資料分析、Web開發、機器學習、深度學習等熱門原始碼。 Python的小夥伴們,你們好!上一節講的是向量資料重疊面積的解析應用,本節的應用主要建立緩衝區,來統計緩衝區內的向量點的個數,希望對大家
Python地學分析 — 建立向量資料點、線、面 04
歡迎關注博主的微信公眾號:“智慧遙感”。 該公眾號將為您奉上Python地學分析、爬蟲、資料分析、Web開發、機器學習、深度學習等熱門原始碼。 Python的小夥伴們,咱們又見面啦! 本節給大家帶來得知識點是通過OGR建立點、線、面。 本人的GitHub程式碼資料主頁(持續
Python資料分析之pandas資料視覺化 python
Python資料視覺化常用的是matplotlib庫,matplotlib是底層庫,今天學了pandas的資料視覺化,相對於matplotlib庫來說,簡單許多。 折線圖 %matplotlib inline import numpy as np import
python資料分析08——pandas資料聚合與分組運算
python資料分析08——pandas資料聚合與分組運算 在將資料集載入、融合、準備好之後,通常就是計算分組統計或生成透視表, pandas提供了 一個靈活高效的groupby功能,它使你能以一種自然的方式對資料集進行切片、切塊、摘要等操作。 一、GroupBy機制 分組運算"
python資料分析06--Pandas資料歸整:聚合和重塑
在許多應用中,資料可能分散在許多檔案或資料庫中,儲存的形式也不不利利於分析,應採用聚 合、合併、重塑資料的方法進行處理。 一、層次化索引 層次化索引(hierarchical indexing)是pandas的一項重要功能,它使你能在一個軸上擁有多 個(兩個以上)索引級別。 In
python資料分析05——Pandas資料清洗、轉換和麵元劃分
在資料分析和建模的過程中,相當多的時間要用在資料準備上:載入、清理、轉換以及重塑。 這些工作會佔到分析師時間的80%或更更多。 pandas和內建的Python標準庫提供了一組高階的、靈活的、快速的工具,可以讓你輕鬆地將資料規整為想要的格式。 一、處理缺失資料 1.檢測缺失資料
python資料分析:會員資料執行(下)——基於AdaBoost的營銷響應預測
何為AdaBoost Adaboost是一種迭代演算法,其核心思想是針對同一個訓練集訓練不同的分類器(弱分類器),然後把這些弱分類器集合起來,構成一個更強的最終分類器(強分類器)。其演算法本身是通過改變資料分佈來實現的,它根據每次訓練集之中每個樣本的分類是否正確,以及上次的總體分類的
大神教你玩轉 SSD 系列三:資料處理
本系列將分為以下 4 個主題進行介紹。 一、SSD基準測試應該關注哪些指標 二、基準測試環境(工具/磁碟要求等) 三、針對磁碟的具體測試專案 四、資料處理 本篇主要介紹第四點——資料處理,在後面的文章推送中會繼續將把本系列的其他各主題分享給大家。 資料處理 如果記錄原始log,日誌都很大,好處是可
【Python資料探勘課程】四.決策樹DTC資料分析及鳶尾資料集分析
希望這篇文章對你有所幫助,尤其是剛剛接觸資料探勘以及大資料的同學,同時準備嘗試以案例為主的方式進行講解。如果文章中存在不足或錯誤的地方,還請海涵~一. 分類及決策樹介紹1.分類 分類其實是從特定的資料中挖掘模式,作出判斷的過程。比如Gmail郵箱
Python資料探勘課程 四.決策樹DTC資料分析及鳶尾資料集分析
希望這篇文章對你有所幫助,尤其是剛剛接觸資料探勘以及大資料的同學,同時準備嘗試以案例為主的方式進行講解。如果文章中存在不足或錯誤的地方,還請海涵~ 一. 分類及決策樹介紹 1.分類 分類其實是從特定的資料中挖掘模式,作
利用Python進行資料分析——MovieLens 1M資料集實踐
如下資料集MovieLens 1M資料集含有來自6000名使用者對4000部電影的100萬條評分資料。下載解壓後可得到評分、使用者資訊和電影資訊三個表。2.分析目標:獲得性別維度下的電影評分排名研究性別維度下評分分歧以及一般評分分歧3.分析過程如下: