《利用Python進行資料分析》筆記---第2章--MovieLens 1M資料集

阿新 • • 發佈：2021-06-29

寫在前面的話：

例項中的所有資料都是在GitHub上下載的，打包下載即可。
地址是： [ http://github.com/pydata/pydata-book ](http://github.com/pydata/pydata-
book)

還有一定要說明的：

我使用的是Python2.7，書中的程式碼有一些有錯誤，我使用自己的2.7版本調通。

    # coding: utf-8
    import pandas as pd
    unames = ['user_id','gender','age','occupation','zip']
    users = pd.read_table('D:\Source Code\pydata-book-master\ch02\movielens\users.dat', sep='::', header=None, names=unames)
    rnmaes = ['user_id','movie_id','rating','timestamp']
    ratings = pd.read_table('D:\Source Code\pydata-book-master\ch02\movielens\\ratings.dat', sep='::', header=None, names=rnmaes)
    mnames = ['movie_id','title','genres']
    movies = pd.read_table('D:\Source Code\pydata-book-master\ch02\movielens\movies.dat', sep='::', header=None, names=mnames)
    
    users[:5]
    ratings[:5]
    movies[:5]
    
    ratings
    
    data = pd.merge(pd.merge(ratings, users), movies)
    data.ix[0]
    mean_rating = data.pivot_table('rating', index='title', columns='gender', aggfunc='mean')
    mean_rating[:5]
    ratings_by_title = data.groupby('title').size()
    ratings_by_title[:10]
    
    active_titles = ratings_by_title.index[ratings_by_title >= 250]
    active_titles
    
    mean_rating = mean_rating.ix[active_titles]
    mean_rating
    
    top_female_rating = mean_rating.sort_index(by='F', ascending=False)
    top_female_rating[:10]
    
    mean_rating['diff'] = mean_rating['M'] - mean_rating['F']
    sorted_by_diff = mean_rating.sort_index(by='diff')
    sorted_by_diff[:15]
    
    sorted_by_diff[::-1][:15]
    
    ratings_std_by_title = data.groupby('title')['rating'].std()
    ratings_std_by_title = ratings_by_title.ix[active_titles]
    ratings_std_by_title.order(ascending=False)[:10]
    ratings_std_by_title
[/code]


![在這裡插入圖片描述](https://img-blog.csdnimg.cn/20210608151750993.gif)

《利用Python進行資料分析》筆記---第2章--MovieLens 1M資料集

寫在前面的話：例項中的所有資料都是在GitHub上下載的，打包下載即可。地址是： [ http://github.com/pydata/pydata-book ](http://github.com/pydata/pydata-

pandas frame 刪除一行_利用Python進行資料分析（第五章、Pandas入門）【三】

技術標籤：pandas frame 刪除一行pandas loc 正則匹配pandas reindexpython中series怎麼重建索引

《利用python做資料分析》第十章：時間序列分析

import pandas as pd import numpy as np import matplotlib.pyplot as plt %matplotlib inline [/code] //anaconda/lib/python2.7/site-packages/matplotlib/font_manager.py:273:

[資料科學筆記]第3章 OLAP與結構化資料分析

技術標籤：資料科學概論資料庫資料倉庫大資料機器學習資料分析 OLAP與結構化資料分析

大話設計模式讀書筆記(第2章)

人物：小菜，大鳥事件：做一個商場收銀軟體，營業員根據客戶所購買的商品的單價和數量，向客戶收費

《機器學習》筆記第2章——模型評估與選擇：經驗誤差與過擬合、評估方法、效能度量、比較檢驗方法、偏差與方差

2.1 經驗誤差與過擬合錯誤率:E = a(錯誤數) / m(樣本數) 精度 = 1 - 錯誤率誤差：在訓練集上的誤差成為訓練誤差，在新樣本上的誤差成為泛化誤差

《高效能MySQL》學習筆記——第四章 Schema與資料型別優化

第四章 Schema與資料型別優化 4.1 選擇優化的資料型別 1、應該儘量使用可以正確儲存儲存資料的最小資料型別。如能使用tinyint就不要使用int，能使用varchar(20)，就不要使用varchar(100)。

第2章變數、資料型別和運算子

技術標籤：Java class Mp3 { public static void main(String[] args) { String brand="愛國者F928";

第2章：基本資料型別

技術標籤：Java基礎程式設計程式語言資料結構javajdk 變數就是申請記憶體來儲存值，也就是說，當建立變數的時候，需要在記憶體中申請空間。

[資料科學筆記]第6章流資料處理

技術標籤：資料科學概論分散式大資料演算法hadoop資料庫流資料處理 1.流資料處理應用

第2章：線性資料結構

技術標籤：資料結構題第2章：線性資料結構 1、實現順序棧的判空操作 /**********

浙大版《資料結構（第2版）》題目集習題2.8 輸出全排列 (20分)

技術標籤：浙大版《資料結構（第2版）》題目集 #include<bits/stdc++.h> using namespace std;

浙大版《資料結構（第2版）》題目集習題2.5 兩個有序連結串列序列的合併 (15分)

技術標籤：浙大版《資料結構（第2版）》題目集遞迴版： List digui(List L1,List L2)

PTA 浙大版《資料結構（第2版）》題目集習題-2.6

技術標籤：PTA演算法習題2.6遞迴求簡單交錯冪級數的部分和(15point(s)) 本題要求實現一個函式，計算下列簡單交錯冪級數的部分和：

PAT 浙大版《資料結構（第2版）》題目集-習題 2.2

技術標籤：浙大版《資料結構（第2版）》題目集PTA演算法資料結構習題2.2陣列迴圈左移(20point(s))

浙大版《資料結構（第2版）》題目集（函式題）

技術標籤：C語言練習習題1.8 二分查詢 (20分) 本題要求實現二分查詢演算法。函式介面定義：

【自考】資料結構導論—第2章線性表程式碼

目錄寫出計算方陣A[n][n]與B[n][n]乘積C[n][n]的演算法設有一n階方陣A,設計演算法實現對該矩陣的轉置。P30

《微服務架構設計模式》讀書筆記 | 第2章服務的拆分策略

目錄前言1. 微服務架構到底是什麼1.1 軟體架構的4+1檢視1.2 應用程式的兩個層面需求1.3 分層式架構風格1.4 關於架構風格的六邊形1.5 什麼是服務1.6 微服務架構的架構風格2 為應用程式定義微服務架構2.1 定義應用程式

資料結構筆記第五章樹與二叉樹

第五章樹與二叉樹 5.1樹的基本概念 5.1.1樹的定義 5.1.2基本術語 ![image-20210702200126766](第五章樹與二叉樹.assets/image-20210702200126766.png)

kubernetes權威指南讀書筆記-第2章Kubernetes安裝

在書本上提到了kubernetes的兩種安裝方式，分別為kubeadm工具安裝和二進位制方式安裝。下面分別來實踐一下；