Amazon Review Dataset資料集介紹

阿新 • • 發佈：2021-01-30

Amazon Review Dataset資料集記錄了使用者對亞馬遜網站商品的評價，是推薦系統的經典資料集，並且Amazon一直在更新這個資料集，根據時間順序，Amazon資料集可以分成三類：

2013 版 https://nijianmo.github.io/amazon/index.html
2014版 http://jmcauley.ucsd.edu/data/amazon/index_2014.html
2018版 http://snap.stanford.edu/data/web-Amazon-links.html

Amazon資料集可以根據商品類別分為 Books，Electronics，Movies and TV，CDs and Vinyl等子資料集，這些子資料集包含兩類資訊：

以2014版資料集為例：

商品資訊描述

asin	商品id
title	商品名稱
price	價格
imUrl	商品圖片連結
related	相關商品
salesRank	折扣資訊
brand	品牌
categories	目錄類別

官方例子：

{
  "reviewerID": "A2SUAM1J3GNN3B",
  "asin": "0000013714",
  "reviewerName": "J. McDonald",
  "helpful": [2, 3],
  "reviewText": "I bought this for my husband who plays the piano.  He is having a wonderful time playing these old hymns.  The music  is at times hard to read because we think the book was published for singing from more than playing from.  Great purchase though!",
  "overall": 5.0,
  "summary": "Heavenly Highway Hymns",
  "unixReviewTime": 1252800000,
  "reviewTime": "09 13, 2009"
}

使用者評分記錄資料

reviewerID	使用者id
asin	商品id
reviewerName	使用者名稱
helpful	有效評價率（helpfulness rating of the review, e.g. 2/3）
reviewText	評價文字
overall	評分
summary	評價總結
unixReviewTime	評價時間戳
reviewTime	評價時間

{
  "asin": "0000031852",
  "title": "Girls Ballet Tutu Zebra Hot Pink",
  "price": 3.17,
  "imUrl": "http://ecx.images-amazon.com/images/I/51fAmVkTbyL._SY300_.jpg",
  "related":
  {
    "also_bought": ["B00JHONN1S", "B002BZX8Z6"],
    "also_viewed": ["B002BZX8Z6", "B00JHONN1S"],
    "bought_together": ["B002BZX8Z6"]
  },
  "salesRank": {"Toys & Games": 211836},
  "brand": "Coxlures",
  "categories": [["Sports & Outdoors", "Other Sports", "Dance"]]
}

Amazon資料集讀取：

因為下載的資料是json檔案，不易操作，這裡主要介紹如何將json檔案轉化為csv格式檔案。以2014版Amazon Electronics資料集的轉化為例：

商品資訊讀取

import pickle
import pandas as pd

file_path = 'meta_Electronics.json'
fin = open(file_path, 'r')

df = {}
useless_col = ['imUrl','salesRank','related','title','description']  # 不想要的欄位
i = 0
for line in fin:
    d = eval(line)
    for s in useless_col:
        if s in d:
            d.pop(s)
    df[i] = d 
    i += 1
df = pd.DataFrame.from_dict(df, orient='index')
df.to_csv('meta_Electronics.csv',index=False)

使用者評分記錄資料讀取

file_path = 'Electronics_10.json'
fin = open(file_path, 'r')

df = {}
useless_col = ['reviewerName','reviewText','unixReviewTime','summary'] # 不想要的欄位
i = 0
for line in fin:
    d = eval(line)
    for s in useless_col:
        if s in d:
            d.pop(s)
    df[i] = d 
    i += 1
df = pd.DataFrame.from_dict(df, orient='index')
df.to_csv('Electronics_10.csv',index=False)

Amazon Review Dataset資料集介紹

KITTI資料集介紹

目錄 1、KITTI資料集概述2、kitti資料採集平臺3、Kitti資料集標註格式參考文獻：

自然語言處理R8資料集介紹

技術標籤：深度學習深度學習自然語言處理R8資料集介紹 R8(全術語版)是路透21578資料集的兩個子集。R8有8個類別，分為5,485個培訓和2,189個測試文件。多用著文字分類上。

3.scikit-learn中資料集介紹

1. scikit-learn資料集API介紹 sklearn.datasets 載入獲取流行資料集 datasets.load_*() 獲取小規模資料集，資料包含在datasets裡

收藏 | 史上最詳細的 Landsat 1-9 系列資料集介紹來啦！

美國陸地衛星（LANDSAT）系列衛星由美國航空航天局（NASA）和美國地質調查局（USGS）共同管理。自1972年起，LANDSAT 系列衛星陸續發射，是美國用於探測地球資源與環境的系列地球觀測衛星系統，曾稱作地球資源技術衛

Cora 資料集介紹

1 前言　　Cora 資料集由機器學習論文組成，是近年來圖深度學習很喜歡使用的資料集。在資料集中，論文被分為以下七類之一：

Keras自動下載的資料集/模型存放位置介紹

Mac # 資料集 ~/.keras/datasets/ # 模型 ~/.keras/models/ Linux # 資料集 ~/.keras/datasets/ Windows # win10

關於kaggle沒有辦法下載資料集dataset問題

關於kaggle沒有辦法下載資料集dataset問題問題：我試圖下載房價預測資料集，沒有反應，或者斷開連線，提示我檢查代理伺服器？什麼鬼？

關於NTU-RGB D資料集的一些介紹和解釋

1. NTU RGB+D 資料集概述 NTU RGB+D 是由南洋理工大學的Rose Lab 實驗室提出來的人體（骨架）行為識別資料集。具體詳細情況可以參考連結，NTU RGB+D只是其中一種模態資料。因為在課題中需要用到該資料集，所以簡單記

利用transforms Dataset DataLoader對影象資料進行處理並構建自己的資料集

技術標籤：python機器學習計算機視覺深度學習pytorch 1. torchvision.transforms 在CV任務中，可以用此對影象進行預處理，資料增強等操作

pytorch資料集和資料處理部分dataset自定義、繼承

https://blog.csdn.net/zhenaoxi1077/article/details/80953227 一、資料載入在Pytorch 中，資料載入可以通過自己定義的資料集物件來實現。資料集物件被抽象為Dataset類，實現自己定義的資料集需要繼承Dataset,

Spark 系列（三）—— 彈性式資料集RDDs

彈性式資料集RDDs 一、RDD簡介 RDD 全稱為 Resilient Distributed Datasets，是 Spark 最基本的資料抽象，它是隻讀的、分割槽記錄的集合，支援並行操作，可以由外部資料集或其他 RDD 轉換而來，它具有以下特性：

SQLserver中cube：多維資料集例項詳解

1、cube:生成多維資料集，包含各維度可能組合的交叉表格，使用with 關鍵字連線 with cube

MySQL刪除有外來鍵約束的表資料方法介紹

在MySQL中刪除一張表或一條資料的時候，出現 [Err] 1451 -Cannot deleteorupdatea parent row:

Pytorch 神經網路—自定義資料集上實現教程

第一步、匯入需要的包 import os import scipy.io as sio import numpy as np import torch import torch.nn as nn

pytorch 批次遍歷資料集列印資料的例子

我就廢話不多說了，直接上程式碼吧！ from os import listdir import os from time import time

python KNN演算法實現鳶尾花資料集分類

一、knn演算法描述 1.基本概述 knn演算法，又叫k-近鄰演算法。屬於一個分類演算法，主要思想如下：

使用 PyTorch 實現 MLP 並在 MNIST 資料集上驗證方式

簡介這是深度學習課程的第一個實驗，主要目的就是熟悉 Pytorch 框架。MLP 是多層感知器，我這次實現的是四層感知器，程式碼和思路參考了網上的很多文章。個人認為，感知器的程式碼大同小異，尤其是用 Pytorch 實現，

pytorch下大型資料集(大型圖片)的匯入方式

使用torch.utils.data.Dataset類處理圖片資料時， 1. 我們需要定義三個基本的函式，以下是基本流程

pytorch GAN偽造手寫體mnist資料集方式

一，mnist資料集形如上圖的數字手寫體就是mnist資料集。二，GAN原理(生成對抗網路)

Amazon Review Dataset資料集介紹

相關推薦