機器學習--第八講--專案:預測桌遊評論
1.桌遊評論
最近,桌遊又捲土重來,更深入的是,越來越多的戰略桌遊,比如Settlers of Catan,受到了巨大的歡迎。一個受歡迎的網站BoardGameGeek對這些型別的桌遊進行了討論和評述。
在這個專案中,你將會研究一個包含80000個桌遊和他們相關的反饋分數。這組資料是Sean Beck通過BoardGameGeek網站抓取的,並編譯成CSV 形式。資料集被儲存為board_games.csv,可以在這裡here.下載。
如果你在任何地方遇到問題,可以到我們的解決問題板塊here來諮詢。
這裡是資料集的前5行資訊:
每一行代表了一種桌遊,並且帶有桌遊的描述統計資訊,連同反饋資訊。這裡有一些有趣的列名:
name--桌遊的名字
playingtime-玩遊戲時間(由製造商提供)
minplaytime--玩遊戲的最少時間(由製造商提供)
maxplaytime--玩遊戲的最多時間(有製造商提供)
minage---推薦的最小玩遊戲年齡
users_rated----評價遊戲的使用者數
average_rating---使用者給予遊戲的平均評級(0-10)
total_weights---使用者評判的“重量”數量,weight是BoardGameGeek創造的一種主觀測量方式。他是涉及一個遊戲有多有趣。Here's
average_weigh---所有主觀權重的平均分(0-5)
機器學習一個有趣的任務也許就是使用其他列來預測average_rating。資料集包含相當多的錯誤值,並且很多行都沒有評估,分數是0。為了讓預測更加容易,你需要先把資料集合的這些錯誤都移除。
。通過Pandas庫來讀取board_games.csv資料框架,然後命名為board_games
。打印出board_games中的前幾行,仔細觀察資料
。使用資料框架的dropna方法以及把axis設定為0,來移除任何包含錯誤值的行。
。移除board_games裡任何users_rated等於0的行。每個沒有反饋的行也都刪掉。
import pandas as pd
board_games=pd.read_csv("board_games.csv")
board_games=board_games.dropna(axis=0)
board_games=board_games[board_games["users_rated"]>0]
board_games.head()
轉載於:https://my.oschina.net/Bettyty/blog/777223