pyspark 對使用者的購買商品記錄作出統計

阿新 • • 發佈：2018-12-17

統計一共售出多少個商品，一共有多少個顧客，所有商品的累加和，售賣最流行的商品

資料UserPurchaseHistory.csv

使用者名稱稱，商品名稱，價格

John,iPhone Cover,9.99
John,Headphones,5.49
Jack,iPhone Cover,9.99
Jill,Samsung Galaxy Cover,8.95
Bob,iPad Cover,5.49

"""A simple Spark app in Python"""
from pyspark import SparkContext

sc = SparkContext("local[2]", "First Spark App")
# we take the raw data in CSV format and convert it into a set of records of the form (user, product, price)
data = sc.textFile("data/UserPurchaseHistory.csv").map(lambda line: line.split(",")).map(lambda record: (record[0], record[1], record[2]))
# let's count the number of purchases
numPurchases = data.count()
# let's count how many unique users made purchases
uniqueUsers = data.map(lambda record: record[0]).distinct().count()
# let's sum up our total revenue
totalRevenue = data.map(lambda record: float(record[2])).sum()
# let's find our most popular product
products = data.map(lambda record: (record[1], 1.0)).reduceByKey(lambda a, b: a + b).collect()
mostPopular = sorted(products, key=lambda x: x[1], reverse=True)[0]
print mostPopular

# Finally, print everything out
print "Total purchases: %d" % numPurchases
print "Unique users: %d" % uniqueUsers
print "Total revenue: %2.2f" % totalRevenue
print "Most popular product: %s with %d purchases" % (mostPopular[0], mostPopular[1])

# stop the SparkContext
sc.stop()

pyspark 對使用者的購買商品記錄作出統計

統計一共售出多少個商品，一共有多少個顧客，所有商品的累加和，售賣最流行的商品資料UserPurchaseHistory.csv 使用者名稱稱，商品名稱，價格 John,iPhone Cover,9.99 John,Headphones,5.49 Jack,iPhone Cover,9.

老男孩培訓練習購買商品

python#!/usr/bin/env python #-*-coding=utf-8 -*- #AUTHOR:duwentao product_list = [ ('Iphone',5000), ('book',10), ('watch&#

python3 從零單排3_函數(購買商品小程序)

pan encoding txt 初始函數 read odin tro and 　　題目如下：商品文件products.txt裏存的內容如下：{‘mac‘: 6500, ‘被子‘: 100.0, ‘手機‘: 1.0, ‘寶馬‘: 100}用戶文件user.txt裏存的內容

Python3.x：logging模塊對運行過程記錄

錯誤空格 level .info gpo evel 目錄 python3 port Python3.x：logging模塊對運行過程記錄示例： import logging # 設置 logger = logging.getLogger() #set loghand

Python3 利用openpyxl 以及jieba 對帖子進行關鍵詞抽取——對抽取的關鍵詞進行詞頻統計

n-2 好處二維返回多條當前記錄 htm IT Python3 利用openpyxl 以及jieba 對帖子進行關鍵詞抽取 ——對抽取的關鍵詞進行詞頻統計 20180413學習筆記一、工作前天在對帖子的關鍵詞抽取存儲後，發現一個問題。我似乎將每個關鍵詞都

對輸入文件的詞頻統計

小寫 txt文件 inf ever import 則表達式字母 eve 發現（1）程序分析 1 # filename： word_freq.py 2 # 註意：代碼風格 3 4 5 import argparse 6 import re 7 8

軟工作業三：對輸入文件的詞頻統計

包括 asc filename pro ava ext 符號 function width 一、程序分析　　（1）、讀文件到緩沖區 def process_file(dst): #讀文件到緩沖區 try:

python入門之實例-購買商品

enum rate code 是否結算不足 set 目前 enume 需求：　　選擇商品，結算所選的商品 #目前總資產 asset_all = 0 #所選商品總價 all_price = 0 #購物車列表，目前已選擇商品 #每個元素的結構："商品名":{‘price

輸入字串，並對其大小寫和字元進行統計輸出

#define _CRT_SECURE_NO_WARNINGS #include<stdio.h> #include<stdlib.h> //輸入字串，並對其大小寫和字元進行統計輸出 //經分析，除了英文，其他都是字元。 void main(void) { char

對功能的監控，操作資訊記錄（參考：本例是對使用者的操作記錄）

package com.zc.spring.aop; import com.alibaba.fastjson.JSON; import com.zc.entity.sys.User; import com.zc.entity.sys.UserLog;

day 14 作業模擬手機淘寶-----（登入註冊--購買商品---結算）

整體案例打包了，有興趣下載看看連結：https://pan.baidu.com/s/1pM6PcKoAQ2LaXiMc79_9RQ 提取碼：usuq 複製這段內容後開啟百度網盤手機App，操作更方便哦手機淘寶主程式： 1 from main1 import account

Python------對包,模組等記錄

模組當一個.py檔案需要匯入模組時，import後面的XXX就是一個模組其xxx就是xxx.py檔案的檔名。 from xxx import abc 這裡是從XXX模組中匯入其abc的方法，這樣可以直接使用abc。 pyc 檔案裝載大

對string型變數的頻率統計(文章單詞檢索)

#include<bits/stdc++.h>using namespace std;#define ll long longmap<string,ll> mp;set<string> ss; void cnt(const string s,string sp){ for

對委託的理解記錄

這只是我的一些理解，如有指導和補充，非常歡迎委託是一個類，一個引用型別。與其他的引用型別沒有本質區別。用delegate宣告時，編譯器自動生成類，類的名字為委託變數名。委託可以引用例項和靜態方法，· NET 的委託是型別安全的。委託：一套模板。不過這套模板是

基於LDA對電商商品評論進行情感分析

1、專案背景：現在大眾在進行網購之前都會先看下相關商品的評論，包括好評與差評，再綜合衡量，最後才決定是否會購買相關的物品。甚至有的消費者已經不看商品的詳情秒數頁而是直接看評論，然後決定是否下單。商品評論已經是使用者決策最為核心的考量因素了。在本專案中要根據

[微信小程式]商城之購買商品數量實現

正文：這裡有三種變更數量的方式，加號，減號，input輸入，這裡做了限制，數量不能小於等於0並且不能超過現有庫存，下面是功能實現程式碼。 <view class="dian"> <view class="cun page

C#實體類對象修改日誌記錄

tor str returns else eric ext for des ast C#實體類對象修改日誌記錄類型驗證幫助類 public static class TypeExtensions { public static bool

對資料庫查詢全部記錄的思考

如果你的伺服器記憶體夠大，夠強悍，可以使勁造，那就不用繼續往下看了。如果不能可勁造，那麼可以看下這篇文章，可能對你有所幫助。我不建議使用查詢全部記錄的語句（比如pdo中的fetchAll方法）。不是完全不使用，主要還是根據資料量的大小來判斷是否可以使用。但是往往用的習慣了，就會一直用下去，

對一個含正數負數列表統計及排序的問題

有一道Python面試題:已知列表，foo = [-5, 8, 0, 4, 9, -4, -20, -2, 8, 2, -4] 1). 求列表中整數，負數元素各多少個? 裡面如有重複元素，只算一個，比如，裡面有兩個8，只算一個 # 方法一: 先用filter過濾負數，再在set(foo)

【轉】matlab之對元素出現的次數進行統計

可以使用hist函式： A = [1 3 5 3 1 5 3 1 1 3 5]; count = hist(A,unique(A)) 1 2 count的結果與unique(A)對應。對於unique

pyspark 對使用者的購買商品記錄作出統計

相關推薦