Udacity 資料分析入門總結

阿新 • • 發佈：2019-02-17

學習內容

*Python資料分析
1.資料讀取
2.資料修正（數值和日期格式的轉化）
3.資料探索（熟悉資料內容，提出問題）
4.問題處理（異常值、特殊值和特定資料提取）
5.資料視覺化（關鍵資料視覺化圖表呈現）
*Numpy和Pandas處理一維資料
待學習
*Numpy和Pandas處理二維資料
待學習

學習感受

課程篇

Udacity的課程總是一如既往的詳細，均是從基礎開始講起，最重要的是講解知識時提出許多具有啟發性的問題，加上合理的練習設計，學起來總是事半功倍。

內容篇

第一部分內容比較基礎，重點在於對列表、字典和元組的理解和使用。主要通過合理的建立字典和列表，將我們感興趣的資料放入，而將不感興趣和異常值去除。

而這個操作一般都是：建立字典——for迴圈——if條件選擇——輸出目標值到新字典。

內容的重點在於：熟悉資料內容，提出能從資料中獲得的有趣問題，以何種思路去回答問題，以及如何根據問題獲得有價值的資訊。

總結回顧

按照學習內容依次總結：

1.讀取csv檔案：

# 用到特殊庫檔案unicodecsv
import unicodecsv

def read_csv(file):
    with open(file, 'rb' 
) as f:
        reader = unicodecsv.DictReader(f)
        return list(reader)

讀取csv格式檔案，並返回列表。

2.資料修正

from datetime import datetime as dt

# 將字串格式的時間轉為 Python datetime 型別的時間。
# 如果沒有時間字串傳入，返回 None

def parse_date(date):
    if date == '':
        return None
    else:
        return dt.strptime(date, '%Y-%m-%d' 
)

# 將可能是空字串或字串型別的資料轉為 整型 或 None。

def parse_maybe_int(i):
    if i == '':
        return None
    else:
        return int(i)

# 清理檔案表格中的資料型別

其中涉及到日期修改，用到datetime庫的strptime函式，在使用時格式為dt.strptime(date, “%Y-%m-%d”)。當然其輸出格式可以多種選擇，可以自行搜尋文件檢視格式。

資料型別轉換可以直接強制轉換為對應型別：int(i)，其中有部分資料需要將尾數去掉，如課程完成值為1.5，需要轉化為1，可利用如下程式碼：

b = int(float(a))

3.資料探索

提供資料為：
enrollments（第一個專案完成情況（內含學員賬號、加入時間、取消時間等））
daily-engagement（每天學習情況（內含學員賬號、瀏覽課程時間、完成課程總數和完成專案總數））
project-submissions（提交專案情況（內含提交專案日期、專案狀態等））

提問：
學員花費在課程上時間與學員提交專案關係？（求得資料中學員花費在課程上的總時間）

# 匯入 defaultdict ，可輸出空列表
from collections import defaultdict

# 定義在資料 data 中尋找特定項 value 的函式
def find_special_value(value, data):
    engagement_by_account = defaultdict(list)
    # 在資料中提取 “account_key”，並將對應資料傳遞給 “engagement_by_account”, 形成字典 “engagement_by_account”
    for data_point in data:
        account_key = data_point["account_key"]
        engagement_by_account[account_key].append(data_point)

    # 建立空字典，儲存結果   
    total_by_account = {}
    # 字典 “engagement_by_account” 用兩次for迴圈查詢資料中對應 "value" 項，並將其累加，存入字典 “total_by_account”中,注意其中的 "items"
    for account_key, engagement_by_student in engagement_by_account.items():
        total = 0
        for engagement_record in engagement_by_student:
            total += engagement_record[value]
        total_by_account[account_key] = total

    # 提取字典中 “value” 值並存入元組 "total_value" 中
    total_value = total_by_account.values()

學員完成課程數與學員完成專案數關係？

# 訪問次數道理與求累計學習時間相同，將value值改為 "num_courses_visited"即可

學員訪問課程教室天數與專案完成關係？

def find_lessons_value(value, data):
    engagement_by_account = defaultdict(list)
    for engagement_record in data:
        account_key = engagement_record["account_key"]
        engagement_by_account[account_key].append(engagement_record)

    total_by_account = {}
    for account_key, engagement_by_student in engagement_by_account.items():
        total = 0
        for engagement_record in engagement_by_student:
        # 特別之處在於，訪問天數的計算：只能是每天為1或者0，即如果當天有訪問次數記錄，只記為1次；沒有記錄，記為0次!
            if engagement_record[value]:
                total += 1
        total_by_account[account_key] = total

    total_value = total_by_account.values()

4.問題處理

異常值、特殊值和特定資料提取

資料集daily-engagement中鍵值問題“acct”：

# 將 "acct" 對應內容 Value 賦值給 "account_key" , 刪除 "acct"
def engagement in daily-engagement:
    engagement["account_key"] = engagement["acct"]
    del engagement["acct"]

資料集中出現重複註冊問題：

# 通過 “account_key” 的唯一賬號，剔除重複使用者
def get_unique_student(data):
    unique_student = set()
    for data_point in data:     
        unique_student.add(data_point["account_key"])
    return unique_student

官方測試賬號異常問題：

# 為所有 Udacity 測試帳號建立一組 set 
udacity_test_accounts = set()
for enrollment in enrollments:
    if enrollment['is_udacity']:
        udacity_test_accounts.add(enrollment['account_key'])

# 通過 "account_key" 找到不是官方測試賬號的資料存入 non_udacity_account 中
def remove_udacity_accounts(data):
    non_udacity_data = []
    for data_point in data:
        if data_point["account_key"] not in udacity_accounts:
            non_udacity_data.append(data_point)
    return non_udacity_data

5.資料視覺化

得到對應結果後，可通過強大、神奇的numpy來處理，比如：

    import numpy

    total_value = total_by_account.values()

    print "mean:",  np.mean(total_value)
    print "standard Deviation", np.std(total_value)
    print "Minium", np.min(total_value)
    print "Maxium", np.max(total_value)

最後再將結果視覺化，比如最基本的直方圖：

# 關鍵資料視覺化圖表呈現

def describe_data(data):
    print 'Mean:', np.mean(data)
    print 'Standard deviation:', np.std(data)
    print 'Minimum:', np.min(data)
    print 'Maximum:', np.max(data)
    plt.hist(data)

可以非常直觀的看到提出資料分佈！！！
這裡寫圖片描述

學習原因及計劃

原因
資料分析與處理是進行深度學習必不可少的一門學科，在對大型、複雜資料進行處理時，不僅僅需要熟練的程式設計技巧，更需要紮實的理論和豐富的經驗來分析和理解資料的特性，並根據其特性來進行合適的模型選擇。

學習完Udacity的深度學習納米課程已經兩個多月了，但在實戰專案中，發現對資料的預處理不足，會導致模型的訓練效果大打折扣，且Python的基礎不紮實，需要一段時間的磨練，決定花一週的時間學習資料分析入門和用 MongoDB 進行資料整理課程，打基礎同時鍛鍊程式設計能力，更深入的理解程式設計思想。
計劃

寫在最後的最後，希望我能堅持到底，享受這個過程，成為更好的自己，得到nice的結果！

Udacity 資料分析入門總結

目錄目錄學習內容學習感受課程篇內容篇總結回顧資料修正資料探索問題處理資料視覺化學習內容 *Python資料分析 1.資料讀取 2.資料修正（數值和日期格式的轉化） 3

Udacity資料分析（入門）-分析 A/B 測試結果

分析A/B測試結果目錄簡介 I - 概率 II - A/B 測試 III - 迴歸簡介對於這個專案，你將要了解的是電子商務網站執行的 A/B 測試的結果。你的目標是通過這個 notebook 來幫助公司弄清楚他們是否應該使用新的頁

Python資料分析入門知識點總結

入門Python資料分析的知識點總結，也可做速查表。只需要學會下面的知識點就可以在工作中勝任大部分的工作需求。 Python 版本：3.2.3 Python工具：jupyter notebook

Python資料分析入門之pandas總結基礎

一. Series Series: pandas的長槍(資料表中的一列或一行,觀測向量,一維陣列...) Series1 = pd.Series(np.random.randn(4)) print Series1,type(Series1) print Seri

Udacity資料分析（進階）- 統計學：檢驗心理學現象

統計學：檢驗心理學現象背景資訊在一個Stroop （斯特魯普）任務中，參與者得到了一列文字，每個文字都用一種油墨顏色展示。參與者的任務是將文字的列印顏色大聲說出來。這項任務有兩個條件：一致文字條件，和不一致文字條件。在一致文字條件中，顯示的文字是與它們的列印顏色匹配的顏色詞，如“

獨家 | Python資料分析入門指南

有一個朋友最近問到這個問題，我覺得把它公開出來對其他人也會有幫助。這是給完全不瞭解Python而想找到從零到一的最簡單的路徑的人的建議： 1. 在這裡（https://www.continuum.io/downloads）下載適用於你的作業系統的Python 3.X的Anaco

資料分析入門

資料分析的概念 1.字面的意思就是對資料進行分析,專業的解釋是:利用適當統計利用適當統計分析方法對大量資料進行分析,總結出內在規律,為未來提供判斷和決策 2.資料分析的6部曲: 明確分析目的和內容資料收據資料處理資料分析資料展現資料撰寫

Python3資料分析入門實戰_01 寫在開頭 +Numpy 入門

Python3資料科學入門與實戰寫在開頭，關於Python，我所瞭解的只是基礎語法和一些簡單類庫的使用，此次開篇教程學習目的是為了去了解關於資料分析、相關類庫的學習使用。多說一句，關於使用Python進行資料分析是不是需要對Python程式設計語法非常精通的問題。我想說：精通

利用python 資料分析入門，詳細教程，教小白快速入門

　　這是一篇的資料的分析的典型案列，本人也是經歷一次從無到有的過程，倍感珍惜，所以將其詳細的記錄下來，用來幫助後來者快速入門！　　資料的格式如下：　　　　　　我們設定一個trem or typedef為一條標籤，一行為一條記錄或者是鍵值對，以此為標準！　　下面我們來對資料進行

資料分析入門(一)

資料分析入門什麼是資料分析字面:對資料進行分析;專業解釋:利用適當統計分析方法對大量資料進行分析,總結出內在規律,為未來提供判斷和決策資料分析6部驟: 明確分析目的和內容資料收據資料處理資料分析資料展現

資料分析入門教程

資料分析是時下十分熱門的一個就業方向。在網際網路迅速膨脹的年代，各行各業都少不了資料分析。資料分析是一門很深的學問，其中蘊含了不少知識。今天我們就從3個方面來為大家簡單地介紹一下資料分析的相關知識，希望今天的內容可以幫助到那些想轉行進入資料分析領域的朋友，這也算是資料分析的入門教程了，可以對初學者或初入資

Python3資料分析入門實戰_04 玩轉Pandas 中

Apply進行資料預處理案例 Demo # 資料讀入 df = pd.read_csv('J:/csv/apply_demo.csv') # 採用Series為DataFrame新增新列 'A' s1 = Series(['a'] * 7978) df['A'] = s1 --

Udacity資料分析（進階試學）-五王之戰分析

概覽五王之戰（War of the Five Kings）是著名嚴肅奇幻小說《冰與火之歌》中的著名內戰。本專案使用了五王之戰期間的戰爭的資料集，它是所有戰鬥的大集合。五王之戰分析 - 冰與火之歌簡介五王之戰（War of the Five Kings）是

Python資料分析學習總結

Python資料分析基礎 numpy 開源、資料計算擴充套件；ndarray、多維操作、線性代數 numpy使用程式： import numpy as np def main(): lst=[[1,3,5],[2,4,6]] print(type(lst)) np_lst=n

資料分析入門必看：3個選擇方向及技能要求！

　每天不少新人加入我們大聖眾包資料交流群，一部分是統計、計算機相關專業的學生，想進一步瞭解資料分析發展，為以後工作準備；而一部分是初步涉入資料的朋友（包括轉行）前來諮詢，沒有相關專業知識可不可以學習資料分析等等問題！下面我們大聖眾包小編帶大家看看不同知識背景的朋友該如何選

資料分析入門書籍，你看過幾本

2013年被媒體稱為“大資料元年”，醞釀了幾年的大資料，突然就被炒火了。 “我們已經從資訊時代走到了數字時代和智慧時代，如果資料被賦予背景，它就成了資訊；如果資料能夠提煉出規律，它就是知識；如果資料能夠藉助於各種各樣的工具在分析的基礎之上為我們提供正確的決策，它就是資

資料分析入門——推薦基礎書以及實用網站

資料分析入門：一開始肯定是數學基礎鞏固：線性代數、統計論等。參考書成千上百，最重要還是理解透！二就是各種軟體的熟悉利用：EXCEL SPSS SAS 等，這是我桌面常用到的軟體：

hive+python資料分析入門

為什麼要使用hive+python來分析資料舉個例子, 當年沒有資料庫的時候, 人們程式設計來操作檔案系統, 這相當於我們編寫mapreduce來分析資料後來有了資料庫, 再沒人操作檔案系統了(除非有其它需求), 而是直接使用sql和一些語言(php, jav

產品經理必備技能之資料分析入門篇

一.資料分析門檻在那裡？ 1.掌握利用資料評估產品改版(或新功能)效果的方法。2.掌握藉助資料發現產品改進關鍵點的方法。3.學會在資料的配合下快速完成使用者畫像的方法。4.知道如何定義資料埋點以及分析需求,並推動研發團隊實施，或者掌握一種資料分析工具(諸葛io、百度統計)

python資料分析入門(一)----安裝pandas

打算入坑, python資料分析 , 所以下載了 <利用python資料分析>的電子書, 影印版 , 14年出版的 , 現在有很多工具對不上號, 但是整體思想還是不變的 , 所以準備工作要做好, 第一步就是安裝常用個庫, https://pypi.python.

Udacity 資料分析入門總結

目錄

學習內容

學習感受

課程篇

內容篇

總結回顧

1.讀取csv檔案：

2.資料修正

3.資料探索

4.問題處理

5.資料視覺化

學習原因及計劃

相關推薦