《利用python進行資料分析》————MovieLens 1M資料集

阿新 • • 發佈：2018-11-27

[本次資料分析所用到的資料集連結]
(http://github.com/wesm/pydata-book)
先使用pandas.read_table將每個表載入到一個pandas.DataFrame物件中：

import pandas as pd

#讓展示的內容少一點
pd.options.display.max_rows = 10

unames = ['user_id','gender','age','occupation','zip']
users = pd.read_table('datasets/movielens/users.dat',sep = '::',header = None,names = unames)

rnames = ['user_id','movie_id','rating','timestamp']
ratings = pd.read_table('datasets/movielens/ratings.dat',sep = '::',header = None,names = rnames)

mnames = ['movie_id','title','genres']
movies = pd.read_table('datasets/movielens/movies.dat',sep = '::',header = None,names = mnames)

然後首先將ratings表與users表合併，然後將該結果與movies表資料合併：

data = pd.merge(pd.merge(ratings,users),movies)
print(data)

使用pivot_table方法或得按性別分級的每部電影的平均電影評分：

mean_ratings = data.pivot_table('rating',index = 'title',columns='gender',aggfunc='mean')
print(mean_ratings[:5])

過濾掉少於250個評分的電影，並使用size()為每個標題獲取一個元素是各分組大小的Series,然後評分多於250個的電影標題的索引之後可以用於從mean_ratings中選出所需的行：

ratings_by_title = data.groupby('title').size()
print(ratings_by_title[:10])
active_titles = ratings_by_title.index[ratings_by_title >= 250]
print(active_titles)
mean_ratings = mean_ratings.loc[active_titles]
print(mean_ratings)

要看到女性觀眾的top電影，我們可以按F列降序排序：

top_female_ratings = mean_ratings.sort_values(by = 'F',ascending = False)
print(top_female_ratings[:10])

如果想要找到男性和女性觀眾之間最具有分歧性的電影，一種方法是新增一列到含有均值差的mean_ratings中：

mean_ratings['diff'] = mean_ratings['M'] - mean_ratings['F']

按照’diff’排序產生評分差異最大的電影，以便我們可以看到哪些是女性首選的：

sorted_by_diff = mean_ratings.sort_values(by = 'diff')
print(sorted_by_diff[:10])

轉換行的順序，並切片出top10的行，我們就可以獲得男性更喜歡但女性評分不高的電影：

print(sorted_by_diff[::-1][:10])

如果你想要的是不依賴於性別標識而在觀眾中引起最大異議的電影。異議可以通過評分的方差或者標準差來衡量：

rating_std_by_title = data.groupby('title')['rating'].std()
ratings_std_by_title = rating_std_by_title.loc[active_titles]
print(rating_std_by_title.sort_values(ascending = False)[:10])

利用Python進行資料分析——MovieLens 1M資料集實踐

如下資料集MovieLens 1M資料集含有來自6000名使用者對4000部電影的100萬條評分資料。下載解壓後可得到評分、使用者資訊和電影資訊三個表。2.分析目標：獲得性別維度下的電影評分排名研究性別維度下評分分歧以及一般評分分歧3.分析過程如下：

《利用python進行資料分析》————MovieLens 1M資料集

[本次資料分析所用到的資料集連結] (http://github.com/wesm/pydata-book) 先使用pandas.read_table將每個表載入到一個pandas.DataFrame物件中： import pandas as pd #讓展示的內容少一點 pd.opti

《利用Python進行資料分析》筆記---第2章--MovieLens 1M資料集

寫在前面的話：還有一定要說明的：我使用的是Python2.7，書中的程式碼有一些有錯誤，我使用自己的2.7版本調通。 # coding: utf-8 import pandas a

利用python進行資料分析（第二版） pdf下載

適讀人群：適合剛學Python的資料分析師或剛學資料科學以及科學計算的Python程式設計者。閱讀本書可以獲得一份關於在Python下操作、處理、清洗、規整資料集的完整說明。本書第二版針對Python 3.6進行了更新，並增加實際案例向你展示如何高效地解決一系列資料分析問題。你將在閱讀

《利用Python進行資料分析》學習記錄

第8章249頁原語句：party_counts = pd.crosstab(tips.day, tips.size) 現在的pandas似乎有個size屬性，就是計算資料的大小，而不會返回那一列具體的資料，比如這裡tips這個csv資料，其裡面包含一列size資料，現在來執行這句語句的話，

資料基礎---《利用Python進行資料分析·第2版》第12章 pandas高階應用

之前自己對於numpy和pandas是要用的時候東學一點西一點，直到看到《利用Python進行資料分析·第2版》，覺得只看這一篇就夠了。非常感謝原博主的翻譯和分享。前面的章節關注於不同型別的資料規整流程和NumPy、pandas與其它庫的特點。隨著時間的發展，pandas發展出了更多適

資料基礎---《利用Python進行資料分析·第2版》第6章資料載入、儲存與檔案格式

之前自己對於numpy和pandas是要用的時候東學一點西一點，直到看到《利用Python進行資料分析·第2版》，覺得只看這一篇就夠了。非常感謝原博主的翻譯和分享。訪問資料是使用本書所介紹的這些工具的第一步。我會著重介紹pandas的資料輸入與輸出，雖然別的庫中也有不少以此為目的的工具

資料基礎---《利用Python進行資料分析·第2版》第4章 NumPy基礎：陣列和向量計算

之前自己對於numpy和pandas是要用的時候東學一點西一點，直到看到《利用Python進行資料分析·第2版》，覺得只看這一篇就夠了。非常感謝原博主的翻譯和分享。 NumPy（Numerical Python的簡稱）是Python數值計算最重要的基礎包。大多數提供科學計算的包都是用Nu

資料基礎---《利用Python進行資料分析·第2版》第11章時間序列

之前自己對於numpy和pandas是要用的時候東學一點西一點，直到看到《利用Python進行資料分析·第2版》，覺得只看這一篇就夠了。非常感謝原博主的翻譯和分享。時間序列（time series）資料是一種重要的結構化資料形式，應用於多個領域，包括金融學、經濟學、生態學、神經科學、物

資料基礎---《利用Python進行資料分析·第2版》第10章資料聚合與分組運算

之前自己對於numpy和pandas是要用的時候東學一點西一點，直到看到《利用Python進行資料分析·第2版》，覺得只看這一篇就夠了。非常感謝原博主的翻譯和分享。對資料集進行分組並對各組應用一個函式（無論是聚合還是轉換），通常是資料分析工作中的重要環節。在將資料集載入、融合、準備好之

資料基礎---《利用Python進行資料分析·第2版》第8章資料規整：聚合、合併和重塑

之前自己對於numpy和pandas是要用的時候東學一點西一點，直到看到《利用Python進行資料分析·第2版》，覺得只看這一篇就夠了。非常感謝原博主的翻譯和分享。在許多應用中，資料可能分散在許多檔案或資料庫中，儲存的形式也不利於分析。本章關注可以聚合、合併、重塑資料的方法。首先

資料基礎---《利用Python進行資料分析·第2版》第7章資料清洗和準備

之前自己對於numpy和pandas是要用的時候東學一點西一點，直到看到《利用Python進行資料分析·第2版》，覺得只看這一篇就夠了。非常感謝原博主的翻譯和分享。在資料分析和建模的過程中，相當多的時間要用在資料準備上：載入、清理、轉換以及重塑。這些工作會佔到分析師時間的80%或更多。

資料基礎---《利用Python進行資料分析·第2版》第5章 pandas入門

之前自己對於numpy和pandas是要用的時候東學一點西一點，直到看到《利用Python進行資料分析·第2版》，覺得只看這一篇就夠了。非常感謝原博主的翻譯和分享。 pandas是本書後續內容的首選庫。它含有使資料清洗和分析工作變得更快更簡單的資料結構和操作工具。pandas經常和其它工

分享《利用Python進行資料分析(第二版)》高清中文版PDF+英文版PDF+原始碼

資料下載：https://pan.baidu.com/s/1K3DjJ9S1S3AxpacEElNF9Q 《利用Python進行資料分析(第二版)》【中文版和英文版】【高清完整版PDF】+【配套原始碼】《利用Python進行資料分析(第二版)》中文和英文兩版對比學習，高清完整版PDF，帶書籤，可複製貼

利用Python進行資料分析之第七章記錄2 資料規整化:清理、轉換、合併、重塑

索引上的合併 DataFrame中傳入引數left_index=True或者right_index=True（或者兩個都傳入）,表示DataFrame的index（索引）被用作兩個DataFrame連線的連線鍵，如下： dataframe1 = DataFrame({'key':

利用Python進行資料分析之第七章記錄資料規整化:清理、轉換、合併、重塑

合併資料集： pandas物件中的資料可以通過一些內建的方式進行合併： pandas.merge可根據一個或多個鍵將不同DataFrame中的行連線起來。SQL或其它關係型資料庫的使用者對此應該會比較熟悉，因為它實現的就是資料庫的連線操作。 pandas.concat可以沿著一條軸將多個

利用python進行資料分析——p26,"一定要以pylab模式”開啟如何解決

本人使用Pythonxy,(Python(x,y)-2.7.10.0.exe)，初學者面對如圖的列表，大腦空白首先，使用python IDEL，雖然有自動路徑提示，但是做不出來圖，鬱

筆記1:利用python進行資料分析

#筆記1:利用python進行資料分析 numpy模組，各種函式等等因為不想使用編碼軟體，所以直接文字編輯器，cmd執行結果；提一個小技巧：cmd中複製資訊操作，右擊–》標記–》選擇需要複製的資訊(一般為白色背景)–》在複製區外右擊，之後在需要的地方-》ctrl+v 就可以了；直

《利用python進行資料分析》之整數索引

《利用python進行資料分析》之整數索引 # -*- coding: utf-8 -*- """ Created on Sat Nov 17 22:23:46 2018 @author: muli """ from pandas import Series,Dat

利用Python進行資料分析——繪圖和視覺化(八)(2)

1、註釋以及在Subplot上繪圖除標準的圖表物件之外，你可能還希望繪製一些自定義的註釋（比如文字、箭頭或其他圖形等）。註釋可以通過text、arrow和annotate等函式進行新增。text可以將文字繪製在圖表的指定座標（x, y），還可以加上一些自定義格式： In [41]: ax.t

《利用python進行資料分析》————MovieLens 1M資料集

相關推薦