MovieLens 1M之python資料分析練習

阿新 • • 發佈：2019-02-18

程式碼區：

import pandas as pd
uname=['user_id','gender','age','occupation','zip']
users=pd.read_table(r'D:\demo1\ml-1m\users.dat',sep='::',header=None,names=uname,engine = 'python')
'''
sep : str, default ‘,’
指定分隔符。如果不指定引數，則會嘗試使用逗號分隔。分隔符長於一個字元並且不是‘\s+’,
將使用python的語法分析器。並且忽略資料中的逗號。正則表示式例子：'\r\t'

header : int or list of ints, default ‘infer’指定行數用來作為列名，資料開始行數。

names : array-like, default None
用於結果的列名列表，如果資料檔案中沒有列標題行，就需要執行header=None。
engine解析器引擎使用。C引擎速度更快，而python引擎目前更加完善。除去警告
''' 


rnames=['user_id','movie_id','rating','timestamp']
ratings=pd.read_table(r'D:\demo1\ml-1m\ratings.dat',sep='::',header=None,names=rnames,engine = 'python')
mname=['movie_id','title','genres']
movies=pd.read_table(r'D:\demo1\ml-1m\movies.dat',sep='::',header=None,names=mname,engine = 'python')

data=pd.merge(pd.merge(movies,ratings),users)
print 
 data.loc[0]#ix[0]已經deprecated棄用

結果：
這裡寫圖片描述

這裡寫圖片描述

movie_id                                1
title                    Toy Story (1995)
genres        Animation|Children's|Comedy
user_id                                 1
rating                                  5
timestamp                       978824268
gender                                  F
age                                     1 

occupation                             10
zip                                 48067

'''
#樞軸表pandas.pivot_table(data, values=None, 
index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All')
'''
mean_ratings=data.pivot_table('rating',index='title',columns='gender',aggfunc='mean')
print mean_ratings[:5]

result:

這裡寫圖片描述

gender                                F         M
title                                            
$1,000,000 Duck (1971)         3.375000  2.761905
'Night Mother (1986)           3.388889  3.352941
'Til There Was You (1997)      2.675676  2.733333
'burbs, The (1989)             2.793478  2.962085
...And Justice for All (1979)  3.828571  3.689024

#過濾資料不足200條的電影
ratings_groupby_title=data.groupby('title').size()
print ratings_groupby_title[:5]

reslut:

title
$1,000,000 Duck (1971)            37
'Night Mother (1986)              70
'Til There Was You (1997)         52
'burbs, The (1989)               303
...And Justice for All (1979)    199
dtype: int64

這裡寫圖片描述

active_titles=data.groupby('title').size().index[data.groupby('title').size()>=200]
print active_titles

result:

Index([u''burbs, The (1989)', u'10 Things I Hate About You (1999)',
       u'101 Dalmatians (1961)', u'101 Dalmatians (1996)',
       u'12 Angry Men (1957)', u'13th Warrior, The (1999)',
       u'2 Days in the Valley (1996)', u'20,000 Leagues Under the Sea (1954)',
       u'2001: A Space Odyssey (1968)', u'2010 (1984)',
       ...
       u'Year of Living Dangerously (1982)', u'Yellow Submarine (1968)',
       u'Yojimbo (1961)', u'You've Got Mail (1998)',
       u'Young Frankenstein (1974)', u'Young Guns (1988)',
       u'Young Guns II (1990)', u'Young Sherlock Holmes (1985)',
       u'Zero Effect (1998)', u'eXistenZ (1999)'],
      dtype='object', name=u'title', length=1426)

mean_ratings=mean_ratings.loc[active_titles]
#對F列進行降序
top_female_rating=mean_ratings.sort_values(by='F',ascending='False')
print top_female_rating[:10]

result：

gender                                                     F         M
title                                                                 
Battlefield Earth (2000)                            1.574468  1.616949
Barb Wire (1996)                                    1.585366  2.100386
Showgirls (1995)                                    1.709091  2.166667
Jaws 3-D (1983)                                     1.863636  1.851064
Rocky V (1990)                                      1.878788  2.132780
Speed 2: Cruise Control (1997)                      1.906667  1.863014
Avengers, The (1998)                                1.915254  2.017467
Anaconda (1997)                                     2.000000  2.248447
Nightmare on Elm Street 5: The Dream Child, A (...  2.052632  1.981481
Howard the Duck (1986)                              2.074627  2.103542

計算評分分歧

mean_ratings['diff']=mean_ratings['M']-mean_ratings['F']
sorted_by_diff=mean_ratings.sort_values(by='diff')
print sorted_by_diff[:5]

result：

gender                                                     F         M  
title                                                                    
Dirty Dancing (1987)                                3.790378  2.959596   
To Wong Foo, Thanks for Everything! Julie Newma...  3.486842  2.795276   
Jumpin' Jack Flash (1986)                           3.254717  2.578358   
Grease (1978)                                       3.975265  3.367041   
Relic, The (1997)                                   3.309524  2.723077   

gender                                                  diff  
title                                                         
Dirty Dancing (1987)                               -0.830782  
To Wong Foo, Thanks for Everything! Julie Newma... -0.691567  
Jumpin' Jack Flash (1986)                          -0.676359  
Grease (1978)                                      -0.608224  
Relic, The (1997)                                  -0.586447

記一個筆記：指令碼實現txt替換

#把檔案內容替換  
#把file3.txt 的 :: 替換為 ,,並儲存到file4.txt  
import re  

fp3=open("file3.txt","r")  
fp4=open("file4.txt","w")  

for s in fp3.readlines():#先讀出來     
    fp4.write(s.replace("::",",")) #替換 並寫入  

fp3.close()  
fp4.close()

MovieLens 1M之python資料分析練習

程式碼區： import pandas as pd uname=['user_id','gender','age','occupation','zip'] users=pd.read_ta

「機器學習」Python資料分析之Numpy進階

請點選此處輸入圖片描述進階廣播法則(rule) 廣播法則能使通用函式有意義地處理不具有相同形狀的輸入。廣播第一法則是，如果所有的輸入陣列維度不都相同，一個“1”將被重複地新增在維度較小的陣列上直至所有的陣列擁有一樣的維度。廣播第二法則確定長度為1的陣列沿著特

「機器學習」Python資料分析之Numpy

請點選此處輸入圖片描述 NumPy的主要物件是同種元素的多維陣列。這是一個所有的元素都是一種型別、通過一個正整數元組索引的元素表格(通常是元素是數字)。在NumPy中維度(dimensions)叫做軸(axes)，軸的個數叫做秩(rank)。例如，在3D空間一個點的座標[1,

Python資料分析之讀取檔案 python 程式語言

Python的資料分析，大部分的教程都是想講numpy，再講Dataframe，再講讀取檔案。但我看書的時候，前面二章看的實在頭暈，所以，我們還是通過讀取檔案來開始我們的Python資料分析吧。讀取CSV 讀取csv通過read_csv讀取python程式語言學習QQ群 5152672

python資料分析之numpy

（1）在numpy中呼叫numpy.lookfor('keyword')檢視numpy中的所有關鍵字及函式；（2）numpy中的操作物件是array（矩陣），且array中的資料都為相同型別；（3）用numpy.genfromtxt()函式讀.txt檔案；（4）生成矩陣：用numpy.arange

python資料分析與挖掘之資料清洗

資料探索的目的是及早發現數據的一些簡單規律或特徵,資料清洗的目的是留下可靠的資料,避免髒資料的干擾。這兩者沒有嚴格的先後順序,經常在一個階段進行。 &nb

Python資料分析之numpy的使用

在完成了自己的一個小目標後，想繼續往資料探勘和資料分析的方向前進，接下來會陸陸續續的完成學習筆記，方便日後的回顧。在之前的部落格裡有一篇關於numpy的使用：https://blog.csdn.net/totoro1745/article/details/79243465，這裡是進行相關

python資料分析之你不知道的bra

曾經，我把目光放在你身體上四分位的地方，發現了世界的美好。。。之後，山水流轉，時光荏苒，不再從前。。。此一文，獻給過往。先上張圖：好奇怪，為什麼是這麼個比例[皺眉] 這篇文章分為兩個部分，python爬蟲和資料分析。爬取京東bra一些資料，並進行分析

python資料分析與挖掘之聚類kmeans演算法

聚類不指定類別進行分類（劃分（分裂）法，層次分析法、密度分析法）、網格法、模型法 Kmeans演算法屬於分裂法隨機選擇k各點作為聚類中心計算各個點到這K個點的距離將對應的點聚到與它最近的這個聚類中心重新

python資料分析與挖掘之貝葉斯演算法演算法實現

程式碼中有詳細的註釋訓練檔案： Txt檔案中為0，1矩陣，將圖片轉換為0，1矩陣見上一篇部落格方法 import numpy import operator from os import listdir class Bayes: def __init__(self):

資料分析之Python資料匯入

'''資料匯入''' import pandas as pda i=pda.read_csv('E:/programCode/jd.csv',encoding='gb18030') i.describe() #按照某一列進行排序 i.sort_values(by='238')#2

Python資料分析之pandas資料視覺化 python

Python資料視覺化常用的是matplotlib庫，matplotlib是底層庫，今天學了pandas的資料視覺化，相對於matplotlib庫來說，簡單許多。折線圖 %matplotlib inline import numpy as np import

python資料分析處理庫-Pandas之Series結構及Series常用操作方法

我上上篇部落格說過：Pandas資料結構為DataFrame，裡面可以同時是int、float、object（string型別時）、datatime、bool資料型別。而構成DataFrame結構的每一

python資料分析基礎之圖與圖表——多圖並列

#_author:"zhengly" #date:2018/8/30 ''' 除了使用matplotlib建立標準統計圖，還可以使用panda來建立其他型別的統計圖本例實現：利用panda建立一個條形

Python資料分析Pandas庫之熊貓(10分鐘二)

pandas 10分鐘教程(二) 重點發法分組 groupby('列名') groupby(['列名1','列名2',.........]) 分組的步驟 (Splitting) 按照一些規則將資料分為不同的組,拆分 (Applying) 對於每組資料分別

Python資料分析之路| 入門起航篇

資料分析準備工作 1.資料分析工具工欲善其事，必先利其器，網上有很多關於資料分析的文章，相信大家一定聽過R語言和Python之爭，而且各有千秋，R語言在學術界更流行,但是在做專案上面我個人比較喜歡Python,Python更通用，更簡潔，文件也很多,而且有大量的庫特別是Google,Fac

【MOOC】Python資料分析與展示-北京理工大學-【第〇周】資料分析之前奏

課程內容導學主題思想與一組資料相關的那些事兒：如何理解一組資料表達的含義有損地提取資料特徵內容組織全課程包括： • 8個內容單元，共12個單元 • 全課程總長4周，每週3個單元 • 每週包含一個實戰型例項程式

python資料分析基礎之圖與圖表——折線圖

#_author:"zhengly" #date:2018/8/30 ''' 折線圖 ''' from numpy.random import randn import matplotlib.pyplo

python之股票資料分析

一、初識PandasPandas 是基於 NumPy 的一個非常好用的庫，它有兩種自己獨有的基本資料結構Series （一維）和 DataFrame（二維），它們讓資料操作更簡單了。雖然Pandas有著兩種資料結構，但它依然是 Python 的一個庫，所以，Python 中有

python資料分析基礎之圖與圖表——箱線圖

#_author:"zhengly" #date:2018/8/30 ''' 箱線圖 ''' import numpy as np import matplotlib.pyplot as plt plt

MovieLens 1M之python資料分析練習

相關推薦