專案練習（一）APP熱點標籤分析

阿新 • • 發佈：2018-12-20

專案練習（一）APP熱點標籤分析

1、專案背景

通過找到熱度標籤，贈標籤熱度，以提高相應APP的下載量和使用量。

2、需求分析

（1）爬取資料：
6個欄位，分別為(appId,app名稱, 一級分類,二級分類,三級分類,Tags描述資訊)，但並不一定完全規整，視實際情況可能左對齊包括四個或五個或六個欄位。

（2）儲存到hive做進一步分析：
通過大資料開發之hive資料倉庫命令列形式，完成資料載入、udf/udaf/udtf函式、統計分析的任務，並演示專案效果即可。

3、主要思路

（1）建立對應的資料表1
（2）載入資料到表1
（3）建立一個表2儲存標籤和標籤量
（4）對資料表1進行處理，“產生資料儲存到表2”

4、開發過程

技術組成：hive sql+udf/udaf/udtf

開發規範：

4.0 prepare

(1)相關目錄建立
config:存放相關配置變數
create:存放表結構資料
deal:具體的sql指令碼
udf:udf/udaf/udtf相關的jar包

4.1按步驟執行

(1) 輸入、輸出表設計到位。
(2) 將資料載入到輸入表中。
(3) hivesql+udf/udaf/udtf實現熱詞統計與寫入庫表。

4.2將所有流程串聯到a_main.sh指令碼中

待開發工作基本完成，需將專案的主體流程，
串聯到a_main.sh當中，作為整個專案的主入口。

4.3詳細講解

（1）config：

#! /bin/bash
hive='/usr/bin/hive'

（2）create:
表1

#! /usr/bin/env bash
source ../config/set_env.sh
$HIVE -e "
use maanran;
create table tb_app_input(
appId string,
appName string,
firstLevel string,
SecondLevel string,
ThirdLevel string,
Tags string
)
partitioned by (dt string comment 'update date' 
)
row format delimited
fields terminated by '\t'
lines terminated by '\n'
"

1、source語句相當於引入set_env.sh檔案，即引入hive變數。

2、定義多個變數，方便後期修改方便。

3、hive -e 語句：保證可以在shell中執行HiveQL。

4、hive -e後可以跟"“和’’ ，但是’'不會識別內容中的Hive變數，會認為是shell變數導致出錯，所有建議使用”"

5、如何決定建立外表/內表？

資料倉庫可以分為三個模組（源資料、倉庫、集市）

源資料：一般是load方式批量載入進來的資料，含有很多的髒資料，大多都是為外表，方便倉庫多種使用

倉庫：當建立好可靠的表結構時，將源資料的資料insert進來，可以建立內表。

表2

#! /usr/bin/env bash
source ../config/set_env.sh
$HIVE -e "
use maanran;
create table hot_tag_rank(
Tag string,
freq int
)
partitioned by (dt string comment 'update date')
row format delimited
fields terminated by '\t'
lines terminated by '\n'
"

（3）deal:
載入資料到表1

#! /usr/bin/env bash
source ../config/set_env.sh
input_tb_name='tb_app_input'
updateDT=$1
data_source_path='../app_abstract_info.txt'
$HIVE -e "
use maanran;
load data local inpath '$data_source_path' overwrite into table $input_tb_name
partition(dt='$updateDT')
"
echo 'load data to input_table_complete!'

1、sh load_input.sh AAA BBB CCC

AAA代表傳入的$1的引數，BBB代表傳入的$2的引數，所有代表引數$0。

載入資料到表2

#! /bin/bash
source ../config/set_env.sh
updateDT=$1
db_name=maanran
output_table=hot_tag_rank
$HIVE -e "
use $db_name;
set hive.execution.engine=tez;
insert overwrite table $output_table partition(dt='$updateDT')
select tag,count(1) as freq from tb_app_input
lateral view explode(split(tags,',')) tag_table as tag where tag!='-' and tag!='' and dt='$updateDT'
group by tag order by freq desc;
"
echo 'load data to output_table_complete!'

1、set hive.execution.engine=tez;設定執行引擎是tez,這個引擎比mr快一些。

以上測試完成可以寫main.sh來依次執行這些sh檔案，建立表的檔案可以不加在main.sh中，防止以後再使用時出現建表名衝突的問題

總main：

#! /bin/bash
currentDT=`date +%Y%m%d`
echo "currentDT="$currentDT
sh load_input.sh $currentDT
sh load_output.sh $currentDT
echo "all done!"

1、`反引號代表先執行``中的內容，在將返回值給currentDT

（4）udf:
本次專案暫時不涉及udf，但是作為開發規範還是要寫好的！！

專案練習（一）APP熱點標籤分析

專案練習（一）APP熱點標籤分析 1、專案背景通過找到熱度標籤，贈標籤熱度，以提高相應APP的下載量和使用量。 2、需求分析（1）爬取資料： 6個欄位，分別為(appId,app名稱, 一級分類,二級分類,三級分類,Tags描述資訊)，但並不一定完全規整，視實際情況可能左

實習專案之（二）APP熱點標籤分析

APP熱點標籤分析專案角色: 核心研發開發組人員: 1 工作內容：通過hive資料倉庫，hivesql語句和udf/udaf/udtf對海量資料完成統計分析，找到熱度標籤，通過熱度標籤能夠提高APP的下載量和使用量一、主要過程基本點 1.資料倉庫工作的四

Android效能優化（一）App啟動原理分析及啟動時間優化

一、啟動原理解析 Android是基於Linux核心的，當手機啟動，載入完Linux核心後，會由Linux系統的init祖先程序fork出Zygote程序，所有的Android應用程式程序以及系統服務程序都是這個Zygote的子程序（由它fork出來的）。其中最重要的一個就

Bash腳本練習（一）（歡迎提意見，共同學習）

linux#!/bin/bash #寫一個腳本(前提：請為虛擬機新增一塊硬盤，假設它為/dev/sdb)，為指定的硬盤創建分區： #1、列出當前系統上所有的磁盤，讓用戶選擇，如果選擇quit則退出腳本；如果用戶選擇錯誤，就讓用戶重新選擇； #2、當用戶選擇後，提醒用戶確認接下來的操作可能會損壞數據，並請用戶確

Python練習（一）

pythonPython練習（一）：給一個不超過5位的正整數，判斷其有幾位，依次打印出個位、十位、百位、千位、萬位的數字：num = int(input(‘please enter a number: ‘)) lst = [] for i in str(num): lst.append(i)

小白的linux練習（一）

探索linux練習一、用student用戶登陸系統圖形界面 2.打開一個bash 3.修改student的密碼，把密碼更新成”T3st1ngtlme”(主機字母和數字) 4.顯示當前系統時間 5.顯示當前系統時間，顯示格式為：”小時:分鐘:秒 AM/PM”（AM/PM為上下午標識） 6.顯示“/usr/bin

vue入門練習（一）

col pre 全局 run -c 初始 handbook serve 回車 1.安裝node,webpack 　　node -v　　 //查看已安裝版本　　npm install -g webpack　　 //安裝webpack 　　npm install -g web

天梯賽練習（一）

從右到左 false bits ppr ret tro != quick 平面 L2-017. 人以群分題意：給定n個正整數，然後分成規模相差盡可能接近的兩類，這兩類之和相差要盡可能大分析：直接排序，然後分成兩部分即可 1 #include <b

Shell練習（一）

情況 read log 文件中一個 false mozilla ash brush 習題1：每天生成一個文件要求：請按照這樣的日期格式（xxxx-xx-xx）每日生成一個文件，例如今天生成的文件為）2018-02-05.log，並且把磁盤的使用情況寫到到這個文件中（不用

PL/SQL 上機練習（一）

and 系列 begin dbm BE str2 合並 where sel _(:_」∠)_ _(:_」∠)_ _(:_」∠)_騙訪問量系列_(:_」∠)_ _(:_」∠)_ _(:_」∠)_ 題目描述：對員工表中所有員工的姓名做如下處理：姓名的首字母在‘A‘到‘G‘ 之

ProtoBuf練習（一）

CA sage return scala 源文件 locate 如果 fixed ims 基礎數據類型 protobuf語言的基礎字段類型相當於C++語言的基礎類型工程目錄結構 $ ls proto/ TFixed.proto TInt.proto TScalar.p

Oracle入門SQL練習（一）

inf != 開頭工作排序 desc 令行查詢排序模糊查詢以下內容以scott用戶下Oracle自帶實例orcl庫中四張表進行查詢，作為Oracle入門SQL基礎練習筆記，不忘初心，加油！ --1).查詢一個用戶下所有的表SELECT * FROM tab; --

golang基礎練習（一）

//遍歷map package main import "fmt" func main() { x := make(map[string]int) x["zhangsan"] = 3 x["lisi"] = 4 x["wangwu"] = 5 //#丟棄值

Redtiger SQL注入練習（一）

感覺會的東西太少了，以後要多練習，多寫部落格。要堅持學習，一定不能放棄，為夢想奮鬥。 redtiger 這個平臺早就開始做了，但是才做到第4關。。。。第一關：開啟題，先隨便試，後來發現點選 Category 後的1 可以注入，然後就是注入了，構造cat=1'' 還報錯，估

Redtiger SQL註入練習（一）

username shu The 查詢 info format print 多次 ali 感覺會的東西太少了，以後要多練習，多寫博客。要堅持學習，一定不能放棄，為夢想奮鬥。 redtiger 這個平臺早就開始做了，但是才做到第4關。。。。第一關：打開題，

Java Spring MVC專案搭建（一）——Spring MVC框架整合

轉自：https://www.cnblogs.com/eczhou/p/6287852.html 1、Java JDK及Tomcat安裝我這裡安裝的是JDK 1.8 及 Tomcat 8，安裝步驟詳見：http://www.cnblogs.com/eczhou/p/6285248.html

.Net Core 商城微服務專案系列（一）：使用IdentityServer4構建基礎登入驗證

這裡第一次搭建，所以IdentityServer端比較簡單，後期再進行完善。 1.新建API專案MI.Service.Identity,NuGet引用IdentityServer4,新增類InMemoryConfiguration用於配置api和客戶端資源： public class InMemor

從零開始Vue專案實戰（一）-準備篇

從前參與過一個react專案的程式碼編寫，大神搭建的框架，我主要負責業務邏輯程式碼編寫，現在回想起來似乎又什麼都不會，現在為了鞏固前端知識，決定用Vue來做這個專案的移動端網站，我本人Vue是從零開始的，一邊學習一邊寫程式碼，在這裡記錄一下過程。專案說明：主要功能實現一個投資平臺，會員身份為融資人或投

Java習題練習（一）

輸出[1,100]內所有的質數，並統計 System.out.println(1); int sum = 0; for(int a = 2; a < 101; a++) { int b = 2; while (b < a) {

Vue2.x實戰餓了麼專案筆記（一）

mack資料如果後端介面尚未開發完成，前端開發一般使用mock資料。注意：新版的vue-cli 自動搭建的build 檔案裡沒有dev-server.js 和 dev-client.js ，因此我們要在webpack.dev.conf.js 裡配置複製data.json 到sr

專案練習（一）APP熱點標籤分析