Spark項目之電商用戶行為分析大數據平臺之(九)表的設計
阿新 • • 發佈:2018-05-21
就是 pre var SQ ID 插入 text mysql tar
一、概述
數據設計,往往包含兩個環節:
第一個:就是我們的上遊數據,就是數據調研環節看到的項目基於的基礎數據,是否要針對其開發一些Hive ETL,對數據進行進一步的處理和轉換,從而讓我們能夠更加方便的和快速的去計算和執行spark作業;
第二個:就是要設計spark作業要保存結果數據的業務表的結構,從而讓J2EE平臺可以使用業務表中的數據,來為使用者展示任務執行結果。
二、MySQL表設計
2.1 session_aggr_stat表
存儲第一個功能,session聚合統計的結果
CREATE TABLE `session_aggr_stat` ( `task_id`int(11) NOT NULL, `session_count` int(11) DEFAULT NULL, `1s_3s` double DEFAULT NULL, `4s_6s` double DEFAULT NULL, `7s_9s` double DEFAULT NULL, `10s_30s` double DEFAULT NULL, `30s_60s` double DEFAULT NULL, `1m_3m` double DEFAULT NULL, `3m_10m` double DEFAULT NULL, `10m_30m` doubleDEFAULT NULL, `30m` double DEFAULT NULL, `1_3` double DEFAULT NULL, `4_6` double DEFAULT NULL, `7_9` double DEFAULT NULL, `10_30` double DEFAULT NULL, `30_60` double DEFAULT NULL, `60` double DEFAULT NULL, PRIMARY KEY (`task_id`) ) ENGINE=InnoDB DEFAULT CHARSET=utf8
2.2 session_random_extract表
存儲我們的按時間比例隨機抽取功能抽取出來的1000個session
CREATE TABLE `session_random_extract` ( `task_id` int(11) NOT NULL, `session_id` varchar(255) DEFAULT NULL, `start_time` varchar(50) DEFAULT NULL, `end_time` varchar(50) DEFAULT NULL, `search_keywords` varchar(255) DEFAULT NULL, PRIMARY KEY (`task_id`) ) ENGINE=InnoDB DEFAULT CHARSET=utf8
2.3 top10_category表
存儲按點擊、下單和支付排序出來的top10品類數據
CREATE TABLE `top10_category` ( `task_id` int(11) NOT NULL, `category_id` int(11) DEFAULT NULL, `click_count` int(11) DEFAULT NULL, `order_count` int(11) DEFAULT NULL, `pay_count` int(11) DEFAULT NULL, PRIMARY KEY (`task_id`) ) ENGINE=InnoDB DEFAULT CHARSET=utf8
2.4 top10_category_session表
存儲top10每個品類的點擊top10的session
CREATE TABLE `top10_category_session` ( `task_id` int(11) NO NULL, `category_id` int(11) DEFAULT NULL, `session_id` varchar(255) DEFAULT NULL, `click_count` int(11) DEFAULT NULL, PRIMARY KEY (`task_id`) ) ENGINE=InnoDB DEFAULT CHARSET=utf8
2.5 session_detail
用來存儲隨機抽取出來的session的明細數據、top10品類的session的明細數據
CREATE TABLE `session_detail` ( `task_id` int(11) NOT NULL, `user_id` int(11) DEFAULT NULL, `session_id` varchar(255) DEFAULT NULL, `page_id` int(11) DEFAULT NULL, `action_time` varchar(255) DEFAULT NULL, `search_keyword` varchar(255) DEFAULT NULL, `click_category_id` int(11) DEFAULT NULL, `click_product_id` int(11) DEFAULT NULL, `order_category_ids` varchar(255) DEFAULT NULL, `order_product_ids` varchar(255) DEFAULT NULL, `pay_category_ids` varchar(255) DEFAULT NULL, `pay_product_ids` varchar(255) DEFAULT NULL, PRIMARY KEY (`task_id`) ) ENGINE=InnoDB DEFAULT CHARSET=utf8
2.6 task表
用來存儲J2EE平臺插入其中的任務的信息
CREATE TABLE `task` ( `task_id` int(11) NOT NULL AUTO_INCREMENT, `task_name` varchar(255) DEFAULT NULL, `create_time` varchar(255) DEFAULT NULL, `start_time` varchar(255) DEFAULT NULL, `finish_time` varchar(255) DEFAULT NULL, `task_type` varchar(255) DEFAULT NULL, `task_status` varchar(255) DEFAULT NULL, `task_param` text, PRIMARY KEY (`task_id`) ) ENGINE=InnoDB AUTO_INCREMENT=0 DEFAULT CHARSET=utf8
Spark項目之電商用戶行為分析大數據平臺之(九)表的設計