電商專案實戰-打包至伺服器上執行（十三）

阿新 • • 發佈：2021-07-28

1、更改輸入、輸出路徑

（1）輸入路徑為：args[0]

（2）輸出路徑為：args[1]

2、修改IPParser.java

src/main/java/project/utils/IPParser.java

目前本機的IP庫是放在ip/qqwry.dat

要修改為：

    //本機ip庫路徑
    //private static final String ipFilePath = "ip/qqwry.dat";
    //伺服器端ip庫路徑
    private static final String ipFilePath = "/home/hadoop/lib/qqwry.dat";

3、修改pom.xml

使用1.8來編譯

在<project></project>中間新增：

<build>
        <plugins>
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>3.3</version>
                <configuration>
                    <source>1.8</source>
                    <target>1.8</target>
                </configuration>
            </plugin>
        </plugins>
    </build>

4、本機打包，上傳至伺服器

本機cmd中：

C:\Users\jieqiong>cd C:\Users\jieqiong\IdeaProjects\hadoop-train-v2
C:\Users\jieqiong\IdeaProjects\hadoop-train-v2>mvn clean package -DskipTests

C:\Users\jieqiong\IdeaProjects\hadoop-train-v2>cd target/
C:\Users\jieqiong\IdeaProjects\hadoop-train-v2\target>dir
 驅動器 C 中的卷是 Windows 
-SSD
 卷的序列號是 F0E4-86A5
C:\Users\jieqiong\IdeaProjects\hadoop-train-v2\target 的目錄

2021/07/27  16:19    <DIR>          .
2021/07/27  16:19    <DIR>          ..
2021/07/27  16:19    <DIR>          classes
2021/07/27  16:19    <DIR>          generated-sources
2021/07/27  16:19    <DIR>          generated-test-sources
2021/07/27  16:19            51,390 hadoop-train-v2-1.0.jar
2021/07/27  16:19    <DIR>          maven-archiver
2021/07/27  16:19    <DIR>          maven-status
2021/07/27  16:19    <DIR>          test-classes
               1 個檔案         51,390 位元組
               8 個目錄 148,776,701,952 可用位元組

C:\Users\jieqiong\IdeaProjects\hadoop-train-v2\target>scp hadoop-train-v2-1.0.jar [email protected]:~lib/

C:\Users\jieqiong\IdeaProjects\hadoop-train-v2\ip>scp qqwry.dat [email protected]:~lib/

5、伺服器端上傳好的檔案

[hadoop@hadoop000 lib]$ pwd
/home/hadoop/lib
[hadoop@hadoop000 lib]$ ls
hadoop-train-v2-1.0.jar  qqwry.dat

6、data資料夾中的資料

[hadoop@hadoop000 data]$ pwd
/home/hadoop/data
[hadoop@hadoop000 data]$ ls
access.log     data.txt  emp.txt      helloworld.txt  part-r-00000
accessOwn.log  dept.txt  emp.txt-bak  h.txt           trackinfo_20130721.data

6、將trackinfo_20130721.data上傳至hdfs中的/project/input/raw（hdfs中本存在，之後使用到的都是已傳好的版本，非自己的版本，注意路徑）

[hadoop@hadoop000 data]$ hadoop fs -mkdir -p /project/input/raw
[hadoop@hadoop000 data]$ hadoop fs -put trackinfo_20130721.data /project/input/raw
[hadoop@hadoop000 data]$ hadoop fs -ls /project/input/raw
Found 1 items
-rw-r--r--   1 hadoop supergroup  173555592 2018-12-09 08:50 /project/input/raw/trackinfo_20130721.data

7、寫指令碼

在/shell/pv.sh

沒有pv.sh檔案，使用vi直接建立並進入。

[hadoop@hadoop000 ~]$ clear
[hadoop@hadoop000 ~]$ cd shell/
[hadoop@hadoop000 shell]$ ls
[hadoop@hadoop000 shell]$ vi pv.sh

在pv.sh檔案寫入：

hadoop jar + "在hdfs中的jar包路徑及jar包名" + “要執行的某一java的copy reference” + "資料輸入路徑" + ”資料輸出路徑“

hadoop jar /home/hadoop/lib/hadoop-train-v2-1.0.jar com.imooc.bigdata.hadoop.mr.project.mr.PVStatApp hdfs://hadoop000:8020/project/input/raw/ hdfs://hadoop000:8020/project/output/v1/pvstat/

8、執行

先設定執行許可權，再執行。

[hadoop@hadoop000 shell]$ chmod u+x pv.sh
[hadoop@hadoop000 shell]$ ./pv.sh

（1）執行com.imooc.bigdata.hadoop.mr.project.mr.PVStatApp

注意：要複製類名的Copy Reference

hadoop jar /home/hadoop/lib/hadoop-train-v2-1.0.jar com.imooc.bigdata.hadoop.mr.project.mr.PVStatApp hdfs://hadoop000:8020/project/input/raw/ hdfs://hadoop000:8020/project/output/v1/pvstat/

[hadoop@hadoop000 shell]$ hadoop fs -text /project/output/v1/pvstat/part-r-00000
300000

（2）執行com.imooc.bigdata.hadoop.mr.project.mr.ProvinceStartApp

hadoop jar /home/hadoop/lib/hadoop-train-v2-1.0.jar com.imooc.bigdata.hadoop.mr.project.mr.ProvinceStatApp hdfs://hadoop000:8020/project/input/raw/ hdfs://hadoop000:8020/project/output/v1/provincestat/

[hadoop@hadoop000 shell]$ hadoop fs -text /project/output/v1/provincestat/part-r-00000

（3）執行com.imooc.bigdata.hadoop.mr.project.mr.PageStatApp

hadoop jar /home/hadoop/lib/hadoop-train-v2-1.0.jar com.imooc.bigdata.hadoop.mr.project.mr.PageStatApp hdfs://hadoop000:8020/project/input/raw/ hdfs://hadoop000:8020/project/output/v1/pagestat/

[hadoop@hadoop000 shell]$ hadoop fs -text /project/output/v1/pagestat/part*

（4）執行com.imooc.bigdata.hadoop.mr.project.mrv2.ETLApp

hadoop jar /home/hadoop/lib/hadoop-train-v2-1.0.jar com.imooc.bigdata.hadoop.mr.project.mrv2.ETLApp hdfs://hadoop000:8020/project/input/raw/ hdfs://hadoop000:8020/project/input/etl/

[hadoop@hadoop000 shell]$ hadoop fs -text /project/input/etl/part*

（5）執行com.imooc.bigdata.hadoop.mr.project.mrv2.ProvinceStatV2App

hadoop jar /home/hadoop/lib/hadoop-train-v2-1.0.jar com.imooc.bigdata.hadoop.mr.project.mrv2.ProvinceStatV2App hdfs://hadoop000:8020/project/input/etl/ hdfs://hadoop000:8020/project/output/v2/provincestatv2/

[hadoop@hadoop000 shell]$ hadoop fs -text /project/output/v2/provincestatv2/part*

（6）執行com.imooc.bigdata.hadoop.mr.project.mrv2.PVStatV2App

hadoop jar /home/hadoop/lib/hadoop-train-v2-1.0.jar com.imooc.bigdata.hadoop.mr.project.mrv2.PVStatV2App hdfs://hadoop000:8020/project/input/etl/ hdfs://hadoop000:8020/project/output/v2/pvstatv2/

[hadoop@hadoop000 shell]$ hadoop fs -text /project/output/v2/pvstatv2/part*

11、總結

大資料處理完以後的資料，是存放在HDFS上
其實大資料乾的事情基本就這麼多
再進一步：需要使用技術或者框架把處理完的結果匯出到資料庫中
Sqoop:把HDFS上的統計結果匯出到MySQL中。

電商專案實戰-打包至伺服器上執行（十三）

1、更改輸入、輸出路徑（1）輸入路徑為：args[0] （2）輸出路徑為：args[1] 2、修改IPParser.java

電商專案實戰

技術標籤：javaspring bootmybatis SpringBoot+MyBatisPlus實現分頁功能前言本片文章僅為了本人整理思路，總結經驗所寫。（作為剛入行的新人，大佬看到勿噴。）

9-電商專案實戰

導包及基礎設定 import re import os import glob import numpy as np import pandas as pd import matplotlib.pyplot as plt

電商專案實戰-使用者行為日誌1

1、使用者行為日誌概述（1）每一次訪問的行為（訪問、搜尋）產生的日誌點進來花了多少時間加入購物車、花了多少時間下單、花了多少時間支付，這些對電商品臺都是很重要的。

電商專案實戰-專案需求及技術架構2

1、專案需求（1）統計頁面的瀏覽量PV---使用mapreduce統計（2）統計各個省份的瀏覽量---省、市---ip統計

電商專案實戰-瀏覽量統計功能實現3

1、統計頁面的瀏覽量將讀入進來的檔案count將一行記錄做成一個固定的key，value賦值為1

電商專案實戰-頁面瀏覽量統計之頁面編號獲取測試7

1、url選擇（1）必選帶 topicId= 2、目標（1）獲取符合規則的pageId，然後進行統計

電商專案實戰-頁面瀏覽量統計功能升級（十二）

1、PageStartV2App.java src/main/java/project/mrv2/PageStartV2App.java 與ProvinceStartV2App.java相同

電商專案實戰Hive實現-外部表在Hive中的使用

1、emp員工表是一個內部表MANAGED_TABLE （1）emp表，不要刪除 hive (testzhang_db)> show tables;

電商專案實戰Hive實現-track_info分割槽表的建立

1、開啟IDEA中的C:\\Users\\jieqiong\\IdeaProjects\\hadoop-train-v2\\input\\etl\\part-r-00000 2、建立外部表track_info

電商專案實戰Hive實現-將ETL資料載入到Hive表中

1、建立資料夾，放入原始資料 [hadoop@hadoop000 ~]$ hadoop fs -mkdir -p /project/input/raw [hadoop@hadoop000 data]$ hadoop fs -put trackinfo_20130721.data /project/input/raw/