搜狗日誌查詢分析 (MapReduce+Hive綜合實驗）

阿新 • • 發佈：2019-01-08

前提條件：

安裝好hadoop2.7.3（Linux系統下）

安裝好MySQL(Windows系統下)，推薦使用Xampp

安裝好Hive（Linux系統下）參考：Hive安裝配置

題目：

從搜狗實驗室下載搜尋資料進行分析

下載的資料包含6個欄位，資料格式說明如下：

訪問時間使用者ID [查詢詞] 該URL在返回結果中的排名使用者點選的順序號 使用者點選的URL

注意：

1.欄位分隔符：欄位分隔符是個數不等的空格；

2.欄位個數：有些行有6個欄位，有些達不到6個欄位。

問題：使用MapReduce和Hive查詢出搜尋結果排名為第2名，點選順序排在第1的資料？

實驗步驟：

思路：用MapReduce做資料清洗，用Hive來分析資料。

1.下載資料來源

開啟搜狗實驗室連結
http://www.sogou.com/labs/resource/q.php

下載精簡版(一天資料，63MB) tar.gz格式資料

下載後文件如下：

2.上傳下載檔案至HDFS

2.1將下載的檔案通過WinScp工具上傳到Linux系統

2.2 解壓SogouQ.reduced.tar.gz並上傳到HDFS

解壓：

$ tar -zxvf SogouQ.reduced.tar.gz

可以用tail命令檢視解壓檔案最後3行的資料

tail -3 SogouQ.reduced

查詢詞為中文，這裡編碼按UTF-8查出來是亂碼，編碼時指定為‘GBK’可避免亂碼。資料格式如前面的說明:

訪問時間使用者ID [查詢詞] 該URL在返回結果中的排名使用者點選的順序號 使用者點選的URL

上傳至HDFS：

$ hdfs dfs -put SogouQ.reduced /

3.資料清洗

因為原始資料中有些行的欄位數不為6，且原始資料的欄位分隔符不是Hive表規定的逗號','，所以需要對原始資料進行資料清洗。

通過編寫MapReduce程式完成資料清洗：

a.將不滿足6個欄位的行刪除

b.將欄位分隔符由不等的空格變為逗號‘,’分隔符

3.1 Eclipse新建Maven工程：Zongheshiyan

Group Id填寫com， Artifact Id填寫Zongheshiyan

新建工程目錄結構如下：

3.2 修改pom.xml檔案

設定主類：在</project>一行之前新增如下語句

<build>
    <plugins>
      <plugin>
        <groupId>org.apache.maven.plugins</groupId>
        <artifactId>maven-shade-plugin</artifactId>
        <version>3.1.0</version>
        <executions>
          <execution>
            <phase>package</phase>
            <goals>
              <goal>shade</goal>
            </goals>
            <configuration>
              <transformers>
                <transformer implementation="org.apache.maven.plugins.shade.resource.ManifestResourceTransformer">
                <!-- main()所在的類，注意修改為包名+主類名 -->
                  <mainClass>com.Zongheshiyan.App</mainClass>
                </transformer>
              </transformers>
            </configuration>
          </execution>
        </executions>
      </plugin>
    </plugins>
  </build>

新增依賴：在 </dependencies>一行之前新增如下語句

    <dependency>
	    <groupId>org.apache.hadoop</groupId>
	    <artifactId>hadoop-common</artifactId>
	    <version>2.7.3</version>
	</dependency>
	<dependency>
	    <groupId>org.apache.hadoop</groupId>
	    <artifactId>hadoop-client</artifactId>
	    <version>2.7.3</version>
	</dependency>
	<dependency>
	    <groupId>org.apache.hadoop</groupId>
	    <artifactId>hadoop-hdfs</artifactId>
	    <version>2.7.3</version>
	</dependency>
	<dependency>
	    <groupId>org.apache.hadoop</groupId>
	    <artifactId>hadoop-mapreduce-client-core</artifactId>
	    <version>2.7.3</version>
    </dependency>

3.3 新建SogouMapper類

3.4 編寫程式碼

SogouMapper.java

package com.Zongheshiyan;


import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

//                                                                                         k1     ,        v1,     k2   ,    v2
public class SogouMapper extends Mapper<LongWritable,Text,Text,NullWritable> {

    @Override
    /**
     * 在任務開始時，被呼叫一次。且只會被呼叫一次。
     */
    protected void setup(Context context) throws IOException, InterruptedException {
        super.setup(context);
    }

    @Override
    protected void map(LongWritable k1, Text v1, Context context) throws IOException, InterruptedException {
        //避免亂碼
        //資料格式：20111230000005  57375476989eea12893c0c3811607bcf    奇藝高清        1      1      http://www.qiyi.com/
        String data = new String(v1.getBytes(),0,v1.getLength(),"GBK");
        
        //split("\\s+") \\s+為正則表示式，意思是匹配一個或多個空白字元，包括空格、製表、換頁符等。
        //參考：http://www.runoob.com/java/java-regular-expressions.html
        String words[] = data.split("\\s+");
        
        //判斷資料如果不等於6個欄位，則退出程式
        if(words.length != 6){
            return;//return語句後不帶返回值，作用是退出該程式的執行  https://www.cnblogs.com/paomoopt/p/3746963.html
        }
        //用逗號代替空白字元
        String newData = data.replaceAll("\\s+",",");
        //輸出
        context.write(new Text(newData),NullWritable.get());
    }

    @Override
    /**
     * 在任務結束時，被呼叫一次。且只會被呼叫一次。
     */
    protected void cleanup(Context context) throws IOException, InterruptedException {
        super.cleanup(context);
    }
}

App.java

package com.Zongheshiyan;


import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;


/**
 * 資料清洗器 主類
 *
 */
public class App 
{
    public static void main( String[] args ) throws Exception {
        Configuration conf = new Configuration();

        Job job = Job.getInstance(conf);
        job.setJarByClass(App.class);

        //指定map輸出
        job.setMapperClass(SogouMapper.class);
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(NullWritable.class);

        //指定reduce的輸出
        job.setOutputKeyClass(Text.class);
        job.setMapOutputValueClass(NullWritable.class);

        //指定輸入、輸出
        FileInputFormat.setInputPaths(job,new Path(args[0]));
        FileOutputFormat.setOutputPath(job,new Path(args[1]));

        //提交job，等待結束
        job.waitForCompletion(true);

    }
}

3.5 打包工程：mvn clean package

3.6上傳到Linux: WinScp工具

3.7 執行jar包

在執行jar包之前，確保開啟了hadoop所有程序

start-all.sh

同時也把mr歷史伺服器程序開啟

mr-jobhistory-daemon.sh start historyserver

執行jar包：

hadoop jar Zongheshiyan-0.0.1-SNAPSHOT.jar /SogouQ.reduced /out/Oneday

機器配置不同，執行時間也不同（執行時間約3分鐘左右）。看到輸出如下圖所示為執行成功。

檢視輸出結果

hdfs dfs -ls /out/Oneday

檢視輸出檔案最後10行資料：

hdfs dfs -tail /out/Oneday/part-r-00000

4.建立hive表

進入hive命令列

hive

建立hive表

create table sogoulog_1(accesstime string,useID string,keyword string,no1 int,clickid int,url string) row format delimited fields terminated by ',';

5.將MapReduce清洗後的資料匯入Hive sogoulog_1表中

load data inpath '/out/Oneday/part-r-00000' into table sogoulog_1;

6.使用SQL查詢滿足條件的資料（只顯示前10條）

select * from sogoulog_1 where no1=2 and clickid=1 limit 10;

其實，還可以對資料做一些探索，例如：

檢視 sogoulog_1表結構

hive> describe sogoulog_1;

accesstime string

useid string

keyword string

no1 int

clickid int

url string

Time taken: 0.411 seconds, Fetched: 6 row(s)

一天內，一共搜尋關鍵詞的個數

hive> select count(keyword) from sogoulog_1;

1724253

第一次點選的次數來看，排名越靠前，點選次數越多

hive> select count(keyword) from sogoulog_1 where no1=1 and clickid=1;

279492

hive> select count(keyword) from sogoulog_1 where no1=2 and clickid=1;

99224

hive> select count(keyword) from sogoulog_1 where no1=3 and clickid=1;

50782

從排名第一URL來看，點選順序越小越多（首先被點到的可能性就越大）。

hive> select count(keyword) from sogoulog_1 where no1=1 and clickid=1;

279492

hive> select count(keyword) from sogoulog_1 where no1=1 and clickid=2;

79721

hive> select count(keyword) from sogoulog_1 where no1=1 and clickid=3;

39726

小結：

MapReduce對原始資料進行清洗，是本實驗的難點，要結合註釋看懂程式碼（資料清洗）。

hive對資料進行資料分析，找到隱含在資料中的規律/價值（資料探勘）。

還可以做的是資料視覺化等。

完成！ enjoy it！

搜狗日誌查詢分析 (MapReduce+Hive綜合實驗）

前提條件：安裝好hadoop2.7.3（Linux系統下）安裝好MySQL(Windows系統下)，推薦使用Xampp 安裝好Hive（Linux系統下）參考：Hive安裝配置題目：從搜狗實驗室下載搜尋資料進行分析下載的資料包含6個欄位，資料格式說明

使用Spark進行搜狗日誌分析實例——統計每個小時的搜索量

360安全衛士返回用戶 sogo user 順序 contex 讀取文件 key 1 package sogolog 2 3 import org.apache.spark.rdd.RDD 4 import org.apache.spark.{SparkCo

使用Spark進行搜狗日誌分析實例——列出搜索不同關鍵詞超過10個的用戶及其搜索的關鍵詞

log collect pre form 用戶 path space img ack 1 package sogolog 2 3 import org.apache.hadoop.io.{LongWritable, Text} 4 import org.apac

使用Spark進行搜狗日誌分析例項——列出搜尋不同關鍵詞超過10個的使用者及其搜尋的關鍵詞

1 package sogolog 2 3 import org.apache.hadoop.io.{LongWritable, Text} 4 import org.apache.hadoop.mapred.TextInputFormat 5 import org.apache.spark

搜狗日誌分析

Mapreduce程式碼：https://github.com/pickLXJ/analysisSogou.git Log日誌：https://pan.baidu.com/s/112P_hR9FlQq7htyTVjxgwg 一、日誌格式搜狗格式查詢https://ww

ELKStack分散式日誌查詢分析伺服器安裝及配置（ElasticSearch、Logstash、Kibana、Redis）

ELK對於沒有接觸的來說，並沒有一般的服務那麼容易安裝和使用，不過也沒有那麼難，elk一般作為日誌分析套裝工具使用。logs由logstash輸入，logstash通過配置檔案對日誌做過濾、匹配，就是用來分析日誌的，輸出到elasticsearch，所以他的配置需要和日誌相匹配。 elas

針對搜狗輸入法的分析

使用者介面：好處：使用者可以自定義背景圖片，也有多種現成的模板供使用者選擇。壞處：手機端的自定義背景圖片過於鮮豔，使鍵盤不容易被人看清。記住使用者選擇：好處：在使用者輸入過一次的情況下，軟體會記住而讓使用者免去重複輸入的麻煩。壞處：搜狗可能會把使用者輸入過的資訊販賣給淘寶等軟體，讓使用者的

第十組分析Mac版本的搜狗輸入法和Mac輸入法（桌面版）

第十組分析Mac版本的搜狗輸入法和Mac輸入法（桌面版）人名輸入：嘗試很多的人名，但是搜狗輸入法和MAC中的輸入法並不是太完整輸入 fht 的時候可見搜狗輸入法就能顯示出人名，但是Mac中的人名就不是我們想要的地名輸入：地名的識別度

elastic search6.2.2 實現用戶搜索記錄查詢（去重、排序）

replicas pos 結果 etime rep col cas rms idt elastic search6.2.2 實現搜索記錄查詢，類似新浪微博這種，同樣的搜索記錄後面時間點的會覆蓋前面的(主要思路：關鍵詞去重，然後按時間排序) 先創建索引 //我的搜索

實驗九：EFang的虛擬主機的搭建（綜合實驗）

EFang的虛擬主機的搭建實驗目的：熟練掌握虛擬主機搭建的全過程整個實驗的需要搭建的框架實驗一：IIS實驗二：DNS實驗三：SQL實驗四：Serv-U實驗五：Winwebmail實驗六：EFang的虛擬主機的搭建看前面的演示（略）實驗一：IIS實驗二：DNS實驗三：SQL實驗四：Serv-U實驗五：Win

自學大資料：Hive基於搜狗搜尋的使用者日誌行為分析

前言 ”大資料時代“，“大資料/雲端計算”，“大資料平臺”，每天聽到太多的大資料相關的詞語，好像現在說一句話不跟大資料沾邊都不好意思說自己是做IT的。可能這與整個IT圈子的炒作也有關聯，某一個方面來看其實就是一營銷術語。很多朋友就想問，我想做大資料，但是沒有這個條件，沒有這

mysql 優化之開啟慢查詢日誌並分析原因

轉載：https://blog.csdn.net/haiqiao_2010/article/details/25138099 第一步.開啟mysql慢查詢方式一:修改配置檔案 Windows：Windows 的配置檔案

Flume-NG + HDFS + HIVE 日誌收集分析

[[email protected] apache-flume-1.3.0-bin]# cat /data/apache-flume-1.3.0-bin/conf/flume.conf# Define a memory channel called c1 on a1a1.channels.c1.ty

SQL排查- 慢查詢日誌與分析資料庫海量資料

慢查詢日誌用於記錄MYsql種響應時間超過閾值開啟慢日誌 show variables ‘%slow_query-log%’ 臨時開啟 set global slow_query_log = 1 關

分析ajax爬取搜狗美女圖片

前面兩篇部落格我們分別利用requests請求庫抓取頁面（連結https://blog.csdn.net/MG1723054/article/details/81604116）和利用selenium模擬瀏覽器來獲取頁面資料（連結https://blog.c

[大資料] 搜尋日誌資料採集系統 flume+hbase+kafka架構（資料搜狗實驗室）

1 採集規劃說明： D1 日誌所在伺服器1 —bigdata02.com D2 日誌所在伺服器2 —bigdata03.com 日誌收集日誌收集日誌整合儲存到kafka 儲存到HBase 2版本 kafka kafka_2.11-0.10

實時日誌收集-查詢-分析系統(Flume+ElasticSearch+Kibana)

設計方案：Flume（日誌收集） +　ElasticSearch（日誌查詢）+ Kibana（日誌分析與展示）實驗使用場景：通過ambari部署集群后，可以新增自己的日誌系統，記錄每個元件的產生的日誌，實時的查詢分析。一、Flume概述 Apache

用Kibana和logstash快速搭建實時日誌查詢、收集與分析系統

Logstash是一個完全開源的工具，他可以對你的日誌進行收集、分析，並將其儲存供以後使用（如，搜尋），您可以使用它。說到搜尋，logstash帶有一個web介面，搜尋和展示所有日誌。 kibana 也是一個開源和免費的工具，他可以幫助您彙總、分析和搜尋重要資料日誌並提供友好的web介面。他可以為 L

Cloudera Hadoop 4 實戰課程(Hadoop 2.0、叢集介面化管理、電商線上查詢+日誌離線分析

親愛的網友，我這裡有套課程想和大家分享，如果對這個課程有興趣的，可以加我的QQ2059055336和我聯絡。 hadoop簡介及工資水平：目前Hadoop的應用越來越廣泛，很多企業都開始採用，Hadoop人才也很稀缺和搶手，待遇和遠比Java、.Net開發

搜狗2013校園招聘java筆試題分析（個人的一點分析拙見，不到之處請不吝賜教）

不知道自己理解有哪些不到之處，還望高手們，不吝指教，一點點貼出我的分析過程，錯誤之處還請批評指教。 13.下面關於字串的描述，正確的是（C） A.通過Strinf s1=new String(“abc”)和String s2=”abc”,額s1==s2為true

搜狗日誌查詢分析 (MapReduce+Hive綜合實驗）

前提條件：

題目：

實驗步驟：

相關推薦