1. 程式人生 > 實用技巧 >機器學習--第八講--專案:預測桌遊評論

機器學習--第八講--專案:預測桌遊評論

2019獨角獸企業重金招聘Python工程師標準>>> hot3.png

1.桌遊評論

最近,桌遊又捲土重來,更深入的是,越來越多的戰略桌遊,比如Settlers of Catan,受到了巨大的歡迎。一個受歡迎的網站BoardGameGeek對這些型別的桌遊進行了討論和評述。

在這個專案中,你將會研究一個包含80000個桌遊和他們相關的反饋分數。這組資料是Sean Beck通過BoardGameGeek網站抓取的,並編譯成CSV 形式。資料集被儲存為board_games.csv,可以在這裡here.下載。

如果你在任何地方遇到問題,可以到我們的解決問題板塊here來諮詢。

這裡是資料集的前5行資訊:

每一行代表了一種桌遊,並且帶有桌遊的描述統計資訊,連同反饋資訊。這裡有一些有趣的列名:

name--桌遊的名字

playingtime-玩遊戲時間(由製造商提供)

minplaytime--玩遊戲的最少時間(由製造商提供)

maxplaytime--玩遊戲的最多時間(有製造商提供)

minage---推薦的最小玩遊戲年齡

users_rated----評價遊戲的使用者數

average_rating---使用者給予遊戲的平均評級(0-10)

total_weights---使用者評判的“重量”數量,weight是BoardGameGeek創造的一種主觀測量方式。他是涉及一個遊戲有多有趣。Here's

這裡是它的所有解釋。

average_weigh---所有主觀權重的平均分(0-5)

機器學習一個有趣的任務也許就是使用其他列來預測average_rating。資料集包含相當多的錯誤值,並且很多行都沒有評估,分數是0。為了讓預測更加容易,你需要先把資料集合的這些錯誤都移除。

。通過Pandas庫來讀取board_games.csv資料框架,然後命名為board_games

。打印出board_games中的前幾行,仔細觀察資料

。使用資料框架的dropna方法以及把axis設定為0,來移除任何包含錯誤值的行。

。移除board_games裡任何users_rated等於0的行。每個沒有反饋的行也都刪掉。

import pandas as pd
board_games=pd.read_csv("board_games.csv")
board_games=board_games.dropna(axis=0)
board_games=board_games[board_games["users_rated"]>0]
board_games.head()

轉載於:https://my.oschina.net/Bettyty/blog/777223