Spark 案例實操
阿新 • • 發佈:2022-02-07
在之前的學習中,我們已經學習了 Spark 的基礎程式設計方式,接下來,我們看看在實際的工作中如何使用這些 API 實現具體的需求。這些需求是電商網站的真實需求,所以在實現功能前,咱們必須先將資料準備好。
上面的資料圖是從資料檔案中擷取的一部分內容,表示為電商網站的使用者行為資料,主要包含使用者的 4 種行為:搜尋,點選,下單,支付。資料規則如下:
- 資料檔案中每行資料採用下劃線分隔資料
- 每一行資料表示使用者的一次行為,這個行為只能是 4 種行為的一種
- 如果搜尋關鍵字為 null,表示資料不是搜尋資料
- 如果點選的品類 ID 和產品 ID 為-1,表示資料不是點選資料
- 針對於下單行為,一次可以下單多個商品,所以品類 ID 和產品 ID 可以是多個,id 之間採用逗號分隔,如果本次不是下單行為,則資料採用 null 表示
- 支付行為和下單行為類似
詳細欄位說明:
編號 |
欄位名稱 |
欄位型別 |
欄位含義 |
1 |
date |
String |
使用者點選行為的日期 |
2 |
user_id |
Long |
使用者的 ID |
3 |
session_id |
String |
Session 的 ID |
4 |
page_id |
Long |
某個頁面的 ID |
5 |
action_time |
String |
動作的時間點 |
6 |
search_keyword |
String |
使用者搜尋的關鍵詞 |
7 |
click_category_id |
Long |
某一個商品品類的 ID |
8 |
click_product_id |
Long |
某一個商品的 ID |
9 |
order_category_ids |
String |
一次訂單中所有品類的 ID 集合 |
10 |
order_product_ids |
String |
一次訂單中所有商品的 ID 集合 |
11 |
pay_category_ids |
String |
一次支付中所有品類的 ID 集合 |
12 |
pay_product_ids |
String |
一次支付中所有商品的 ID 集合 |
13 |
city_id |
Long |
城市 id |
`
作者:王陸 出處:https://www.cnblogs.com/wkfvawl/-------------------------------------------
個性簽名:罔談彼短,靡持己長。做一個謙遜愛學的人!
本站使用「署名 4.0 國際」創作共享協議,轉載請在文章明顯位置註明作者及出處。鑑於博主處於考研複習期間,有什麼問題請在評論區中提出,博主儘可能當天回覆,加微信好友請註明原因