MapReduce實戰 - 根據文章記錄獲取時段內發帖頻率

阿新 • • 發佈：2018-11-10

MapReduce簡介

MapReduce是一種分散式計算模型，是Google提出的，主要用於搜尋領域，解決海量資料的計算問題。
MR有兩個階段組成：Map和Reduce，使用者只需實現map()和reduce()兩個函式，即可實現分散式計算。

例子

資料來源結構

首先檢視資料來源結構:

CREATE TABLE `article` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `allowed_add_tag` int(2) DEFAULT NULL,
  `attitudes` varchar(255) DEFAULT NULL 
,
  `attitudes_id` int(11) DEFAULT NULL,
  `banana_count` int(11) DEFAULT NULL,
  `big_cover_image` varchar(255) DEFAULT NULL,
  `channel_id` int(11) DEFAULT NULL,
  `channel_name` varchar(255) DEFAULT NULL,
  `channel_path` varchar(255) DEFAULT NULL,
  `comment_count` int(11) DEFAULT NULL,
  `contribute_time` 
 datetime DEFAULT NULL,
  `cover_image` varchar(255) DEFAULT NULL,
  `description` varchar(255) DEFAULT NULL,
  `essense` int(2) DEFAULT NULL,
  `favorite_count` int(11) DEFAULT NULL,
  `latest_active_time` datetime DEFAULT NULL,
  `latest_comment_time` datetime DEFAULT NULL,
  `like_count` int(11) DEFAULT 
 NULL,
  `link` varchar(255) DEFAULT NULL,
  `parent_channel_id` int(11) DEFAULT NULL,
  `parent_channel_name` varchar(255) DEFAULT NULL,
  `parent_realm_id` int(11) DEFAULT NULL,
  `realm_id` int(11) DEFAULT NULL,
  `realm_name` varchar(255) DEFAULT NULL,
  `recommended` int(2) DEFAULT NULL,
  `status` int(11) DEFAULT NULL,
  `tag_list` varchar(255) DEFAULT NULL,
  `title` varchar(255) DEFAULT NULL,
  `top_level` int(2) DEFAULT NULL,
  `tudou_domain` int(2) DEFAULT NULL,
  `type_id` int(11) DEFAULT NULL,
  `user_avatar` varchar(255) DEFAULT NULL,
  `user_id` int(11) DEFAULT NULL,
  `username` varchar(255) DEFAULT NULL,
  `view_count` int(11) DEFAULT NULL,
  `view_only` int(2) DEFAULT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=13103 DEFAULT CHARSET=utf8mb4;
複製程式碼

這裡我將其中的資料匯出為csv檔案。

思路

在這個例子中，我要做的是根據帖子釋出時間，統計全天中每隔30分鐘的發帖個數。

由於當前我沒有重寫InputFormat介面，因此採用的是hadoop預設的按行讀取檔案方法。所以傳入引數為<0, [一行資料]>.

InputFormat 介面 - 該介面指定輸入檔案的內容格式。

其中getSplits函式將所有輸入資料分成numSplits個split，每個split交給一個map task處理。

getRecordReader函式提供一個使用者解析split的迭代器物件，它將split中的每個record解析成key/value對。

獲取資料中的發帖時間
計算髮帖時間在全天時間中的時間段並傳遞個reduce() - <時間段, 1>
reduce對時間段出現次數進行統計

util

首先先編寫工具類Times.java - period(str:String, format:String)方法，該方法的作用為：

根據傳入的字串和時間格式獲取一天中改時間的時間區間，如：

輸入："2018-10-18 22:05:11", "yyyy-MM-dd HH:mm:ss"

輸出: "201810182200-201810182230"

方法如下：

public static String period(String time, String format) {
    Objects.requireNonNull(time);
    DateTimeFormatter formatter = DateTimeFormatter.ofPattern(format);
    LocalDateTime dateTime = LocalDateTime.parse(time, formatter);
    int m = dateTime.getMinute();
    LocalDateTime start = dateTime.withMinute(m < 30 ? 0 : 30);
    LocalDateTime end = null;
    if (m < 30) {
        end = dateTime.withMinute(30);
    } else {
       end = dateTime.plusHours(1);
       end = end.withMinute(0);
    }

    DateTimeFormatter dateTimeFormatter = DateTimeFormatter.ofPattern("yyyyMMddHHmm");
    return start.format(dateTimeFormatter) + "-" + end.format(dateTimeFormatter);
}
複製程式碼

測試輸入:

period("2018-11-11 23:34", "yyyy-MM-dd HH:mm");

返回結果:

201811112330-201811120000

Map

TimeMapper.java程式碼為：

public class TimeMapper extends Mapper<LongWritable, Text, Text, LongWritable> {


    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        String time = Matchers.stringCutBymatchers(value.toString(), "[0-9]{4}[/][0-9]{1,2}[/][0-9]{1,2}[ ][0-9]{1,2}[:][0-9]{1,2}[:][0-9]{1,2}");
        Objects.requireNonNull(time);
        String result = Times.period(time, "yyyy/MM/dd HH:mm:ss");
        context.write(new Text(result), new LongWritable(1));
    }
}
複製程式碼

由於按行讀取.csv檔案並且一行中的時間格式為yyyy/MM/dd HH:mm:ss,因此直接用正則表示式擷取時間。然後獲取時間區段，然後將<時間區段, 1>傳遞給reduce().

Matchers.stringCutBymatchers():

public static String stringCutBymatchers(String str, String mstr) {
    Pattern patternn = Pattern.compile(mstr);
    Matcher matcher = patternn.matcher(str);
    String result = null;
    if (matcher.find()) {
        result = matcher.group(0);
    }
    return result;
}
複製程式碼

Reduce

reduce()階段的操作就很簡單了，只要統計時間區段出現的次數就好了

TimeReduce.java:

public class TimeReduce extends Reducer<Text, LongWritable, Text, LongWritable> {

    @Override
    protected void reduce(Text key, Iterable<LongWritable> values, Context context) throws IOException, InterruptedException {
        long counts = 0L;
        for (LongWritable val : values) {
            counts += val.get();
        }
        context.write(key, new LongWritable(counts));
    }
}
複製程式碼

main

main方法如下:

TimeApp.java:

public class TimeApp {

    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        String[] otherArgs = (new GenericOptionsParser(conf, args)).getRemainingArgs();
        if (otherArgs.length < 2) {
            System.out.println("請輸入input目錄和output目錄");
            System.exit(2);
        }

        Job job = Job.getInstance(conf, "acfun-time");
        job.setJarByClass(CSVApp.class);
        job.setMapperClass(TimeMapper.class);
        job.setReducerClass(TimeReduce.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(LongWritable.class);

        for (int i = 0; i < otherArgs.length - 1; ++i) {
            FileInputFormat.addInputPath(job, new Path(otherArgs[i]));
        }

        Path path = new Path(otherArgs[otherArgs.length - 1]);// 取第1個表示輸出目錄引數（第0個引數是輸入目錄）
        FileSystem fileSystem = path.getFileSystem(conf);// 根據path找到這個檔案
        if (fileSystem.exists(path)) {
            fileSystem.delete(path, true);// true的意思是，就算output有東西，也一帶刪除
        }

        FileOutputFormat.setOutputPath(job, path);
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
    
}
複製程式碼

執行

最終檔案目錄如下：

其他package是為了之後繼承其他類準備，目前沒用。

這裡我採用和hadoop-example一樣的啟動方法，設定一個總Main.java

public class Main {

    public static void main(String[] args) {
        int exitCode = -1;
        ProgramDriver pgd = new ProgramDriver();
        try {
            pgd.addClass("citycount", CSVApp.class, "統計文章中出現的城市個數");
            pgd.addClass("timecount", TimeApp.class, "統計文章時段發帖數目");
            exitCode = pgd.run(args);
        } catch (Throwable e) {
            e.printStackTrace();
        }
        System.exit(exitCode);
    }

}
複製程式碼

根據命令引數來選擇需要執行的job。

打包並上傳後執行。

執行

yarn jar com.dust-1.0-SNAPSHOT.jar timecount /acfun/input/dust_acfun_article.csv /acfun/output
複製程式碼

等待job執行完成:

執行完成之後通過

hdfs dfs -cat /acfun/output/part-r-00000
複製程式碼

檢視結果

之後只要將該檔案的資料提取出來畫成圖表就能直觀地檢視發帖時段了。

MapReduce實戰 - 根據文章記錄獲取時段內發帖頻率

MapReduce簡介 MapReduce是一種分散式計算模型，是Google提出的，主要用於搜尋領域，解決海量資料的計算問題。 MR有兩個階段組成：Map和Reduce，使用者只需實現map()和reduce()兩個函式，即可實現分散式計算。例子資料來源結構首先檢視資料來源結構:

根據自動定位獲取範圍內最近的資訊

以前的一個專案，需求是根據當前使用者上傳的經緯度座標，在資料庫幾十萬萬條資料中查詢出符合“周圍3公里範圍內”條件的座標點。　　所以，我首先想到的是，對每條資料去進行遍歷，跟資料庫中的每個點進行距離計算，當距離小於3公里時候，認為匹配成功。經測試，這樣做確實能得到結果，但是效率

分頁總數計算，根據總記錄數獲取分頁總數_目標科技

感覺 math ceiling double 分頁 total str 計算 tro 分頁總數計算，根據總記錄數獲取分頁總數，本文章提供5種寫法，大家感覺哪個好用就拿去用吧。 int pageSize = 20; //每頁記錄數量 int total

根據時間區間獲取時間區間內所有日期

/** * @param start 開始時間格式yyyymmdd * @param end 結束時間格式yyyymmdd * @return list<string>期間的所有日期 */ public static List<Stri

根據當前經緯度獲取一定距離範圍內的兩個經緯度的點值經緯度最大最小值

<?php //當前經緯度 $Lat = '30.01254012452224'; //緯度 $Lng = '121.01244544525456456478797';//經度

oracle 根據一個時間段獲取這個時間段內所有月份、天數、日期

獲取月份列表：SELECT TO_CHAR(ADD_MONTHS(TO_DATE('2014-10', 'yyyy-MM'), ROWNUM - 1), 'yyyyMM') as monthlist FROM DUAL CONNECT BY ROWNUM <= months_between(to_dat

12-hibernate實戰多對一根據查詢員工獲取部門的資訊

static Employee query(int empId) { Session session = null; Transaction transaction = null; try { session=HibernateUtil.getSessi

根據當前經緯度,獲取一定距離範圍內的兩個經緯度的值,經緯度的最大和最小值

@param $meter 距離 @param $u_lon 經度 @param $u_la 緯度 public function getLaLon($meter, $u_lon, $u_la) { // $Lat = '30.01254012452224'; //緯度

Openstack-Ceilometer-獲取主機內存的使用

fig inux title alt openstack sin 關閉selinux ng- src 1. 物理server配置 1.1安裝參考 http://blog.csdn.net/qq_21398167/article/details/47019751

2017.07.28 Python網絡爬蟲之爬蟲實戰今日影視2 獲取JS加載的數據

常見實戰交互影視獲取框架並且 htm 處理 1.動態網頁指幾種可能： 1）需要用戶交互，如常見的登錄操作； 2）網頁通過js / AJAX動態生成，如一個html裏有<div id="test"></div>，通過JS生成<divi

iOS項目開發實戰——使用同步請求獲取網頁源碼

b2c ont over per 未能 enter nsstring targe 技術網絡請求一般分為同步請求和異步請求，同步請求假設訪問時間過長，會造成界面卡死狀態，用戶體驗不是非常好。可是請求速度較快的話，也能夠考慮使用同步訪問。如今先來學習同

獲取手機內核 config 轉

roc 開發 extract bsp oot 以及 onf 手機 conf 雖然Google宣稱從2.3.4以及3.1版本以後開始支持ADK開發，但是現在真正支持ADK開發並不是很多。可以確定的是google親兒子在使用官方系統包的時候支持ADK開發，比如我手上的Nexus

php根據出生日期獲取年齡

turn logs class php http www. www .html light /** * @param $birthday 出生年月日（1992-1-3） * @return string 年齡 */ function countage($birthd

Python3.x：獲取iframe內嵌頁面的源碼

inpu mon print 文本 bsp content clas tag contain Python3.x：獲取iframe內嵌頁面的源碼前言在一些網頁中經常會看到ifrmae/frame標簽，iframe是嵌入式框架一般用來在已有的頁面中嵌入另一個頁面，當一個元

【API】獲取系統內存所有狀態

base 系統 sizeof minimum address sea sha regions info SYSTEM_INFO sysInfo = {0}; GetSystemInfo(&sysInfo); DWORD dwMinAddr

根據funID,personID獲取最新規劃包項目相關信息

dbo ppi ict pla all 定義相關信息最新 tinc 1.定義：根據funID,personID獲取最新規劃包項目相關信息（code projecttype(階段) Pname(code+name) projectID）項目表tbl_cfg_Pro

SQL 根據身份證號碼獲取年齡的函數

else months clas BE HA 格式拼接返回 weight 在數據庫的運用過程中，我們時常會碰到根據身份證號碼來獲取當前的年齡，今天我在這裏寫了一個函數，就是關於獲取年齡的 create or replace function FUNC_COMPARE_

MapReduce實戰：自定義輸入格式實現成績管理

stat app 註意 false exce 考試成績 fileinput collect 劃分 1. 項目需求　　我們取有一份學生五門課程的期末考試成績數據，現在我們希望統計每個學生的總成績和平均成績。樣本數據如下所示，每行數據的數據格式為：學號、

java 反射機制--根據屬性名獲取屬性值

obj popu null tail tools pop 對象 href pro 1.考慮安全訪問範圍內的屬性，沒有權限訪問到的屬性不讀取 [java] view plain copy /** * 根據屬性名獲取屬性值 * *

完成sqlmap滲透攻擊入門到實戰專欄文章初步目標

sqlmap滲透攻擊《滲透攻擊入門到實戰》專欄文章http://blog.51cto.com/cloumn/detail/3從推出到目前基本預訂目標17章內容完成更新。回顧整個過程有以下一些感受：1.技術的東西必須深入，目前安全圈安全生態不是特別好，很多內容都是copy，筆者在對某些內容進行查看時，根據文章提

MapReduce實戰 - 根據文章記錄獲取時段內發帖頻率

MapReduce簡介

例子

資料來源結構

思路

util

Map

Reduce

main

執行

相關推薦