編寫MapReduce :統計每個關鍵詞，所在檔案及，第幾行出現了多少次

阿新 • • 發佈：2018-12-24

import java.io.IOException;
import java.net.URI;
import java.net.URISyntaxException;
import java.util.HashMap;
import java.util.Map;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable; 

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.InputSplit;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.FileSplit; 

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

//統計每個關鍵詞在每個文件中，第幾行出現了多少次

public class kaoshi1 {
    private static int count1 =0;
    private static int count2 =0;
    static class MyMapper extends Mapper<LongWritable, Text, Text, Text>{
        Text mk=new Text();
        Text mv=new 
 Text();
        String filename="";

        @Override
            //setup job任務執行時載入一次，可以獲取檔案資訊
        protected void setup(Mapper<LongWritable, Text, Text, Text>.Context context)
                throws IOException, InterruptedException {
            //通過檔案的切片資訊，獲取檔名
            InputSplit insplit = context.getInputSplit();
            FileSplit fs=(FileSplit)insplit;
            filename = fs.getPath().getName();
        }

        @Override
        protected void map(LongWritable key, 
                Text value,
                Context context)
                throws IOException, InterruptedException {
            Map<String, Integer> word = new HashMap<>();//先建立一個map集合用於統計所在行的相同單詞出現個數

            //liangchaowei love liujialing
            String[] sp = value.toString().split(" ");
            if(filename.startsWith("mapreduce-4-1.txt")){//先判斷訪問的是檔案
                count1++;                               //單詞所在的檔案中的行號
                for(String v:sp){
                    if(word.containsKey(v)){            //判斷是否新增過
                        word.put(v,word.get(v)+1);      //所在行的單詞個數
                    }else{
                        word.put(v, 1);
                    }
                    System.out.println(count1+"----------------");
                }
                for(String k:word.keySet()){
                    mk.set(k);
                    mv.set(filename+":"+count1+","+word.get(k));//將檔名：行號，出現次數封裝當value中
                    System.out.println(word.get(k));
                    context.write(mk, mv);
                }
            }else{                                              //與上同理
                count2++;
                for(String v:sp){
                    if(word.containsKey(v)){
                        word.put(v,word.get(v)+1);
                    }else{
                        word.put(v, 1);
                    }
                }
                for(String k:word.keySet()){
                    mk.set(k);
                    mv.set(filename+":"+count2+","+word.get(k));
                    System.out.println(word.get(k));
                    context.write(mk, mv);

                }
            }
        }
    }

    static class MyReducer extends Reducer<Text, Text, Text, Text>{
        Text outValue = new Text();
        String[] sp;
        @Override
        protected void reduce(Text key, 
                Iterable<Text> values, 
                Reducer<Text, Text, Text, Text>.Context context)
                throws IOException, InterruptedException {
            StringBuffer sb = new StringBuffer();               //建立一個包裝類
            //txt.1:1   txt.1:1:2
            System.out.println(key+"--------------++++++++++++");
            for(Text v:values){
                String[] sp = v.toString().split(":");              //測試資料用
                sb.append(v.toString()+"\t");       //將values內容進行拼接
                System.out.println(sp[0]);                  //測試是否取到資料
            }
            outValue.set(sb.toString());
            context.write(key, outValue);
        }
    }

    public static void main(String[] args) throws IOException, URISyntaxException, ClassNotFoundException, InterruptedException {
        //本地執行新增對映
        System.setProperty("HADOOP_USER_NAME", "hadoop");
        //新增配置檔案
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf);                //建立Job任務

        job.setJarByClass(kaoshi1.class);               //jar執行主類（驅動類driver）

        job.setMapperClass(MyMapper.class);             //指定mapper載入的類
        job.setReducerClass(MyReducer.class);           //指定reducer載入的類

        job.setOutputKeyClass(Text.class);              //指定任務的輸出的key型別
        job.setOutputValueClass(Text.class);            //指定任務的輸出的value型別

        FileInputFormat.addInputPath(job, new Path("hdfs://hadoop01:9000/ksin02"));//指定載入路徑

        FileSystem fs = FileSystem.get(new URI("hdfs://hadoop01:9000"), conf);//獲取hdfs的檔案系統路徑--物件

        Path path = new Path("/ksout05");//輸出結果檔案路徑     
        if(fs.exists(path)){                                //防止目錄存在，啟動失敗
            fs.delete(path,true);
        }
        FileOutputFormat.setOutputPath(job, path);          //指定輸出路徑---（目錄不能存在）
        job.waitForCompletion(true);                        //是否列印日誌

    }

}

編寫MapReduce :統計每個關鍵詞，所在檔案及，第幾行出現了多少次

import java.io.IOException; import java.net.URI; import java.net.URISyntaxException; import java.util.HashMap; import java.util.Map; import org.a

嵌入式Linux檔案系統-jffs2，yaffs2，ubifs，ramfs，網路檔案系統，

綜述：常見的檔案系統有統的格式有：jffs2，yaffs2，ubifs等。但可基於儲存或者執行的位置可分為 flash型檔案系統，Ram型檔案系統，網路檔案系統 Flash型檔案系統： Flash因為其特殊的硬體結構，普通的檔案系統如ext2，ext3等不適合使用。常見的檔案系統的

ajax獲取伺服器靜態資源(一個.json檔案)，請求成功，有檔案返回，但是ajax回撥卻進了error（一個回車鍵惹出的禍）

問題描述：同事反應問題：向後臺請求json檔案，完了在前臺渲染一個表格，但是始終渲染不出來。 $.ajax({ &nbs

HashTable與HashMap的區別，資料結構，類檔案結構，原始碼分析

轉載https://www.imooc.com/article/details/id/23015 與HashMap的區別 1 HashMap是非同步的，沒有對讀寫等操作進行鎖保護，所以是執行緒不安全的，在多執行緒場景下會出現資料不一致的問題。而HashTable是同步的，所有的讀寫等操作都進

Linux基礎命令，目錄檔案操作，vi編輯器詳解

一、linux基礎命令 linux命令的執行必須依賴於shell命令直譯器。shell實際上是在linux系統中執行的一種特殊程式，它位於作業系統核心與使用者之間，負責接收使用者輸入的命令並進行解釋，將需要執行的操作傳遞給系統核心執行，shell在使用者和核心之間充當了一個“翻譯官”的角色。當用戶登入到li

go語言基礎語法：異常處理，文字檔案處理，JSON處理，檔案操作

一、異常處理 1.err介面的使用 err1 := fmt.Errorf("%s", "this is normal error") fmt.Println("err1=", err1) err2 := errors.New("this is normal error,

使用pyinstaller打包多個py檔案時，遇到的no module ...，exe檔案一閃而過，自定義模組打包等問題

1.跳過pyinstaller的安裝，自行谷歌 2. 用cmd cd到你想要打包的py檔案所在的資料夾下面，這裡我的資料夾是ceshi；我需要打包的檔案為main.py、a1.py、a2.py 3.執行命令pyi-makespec main.py，這裡將會根據你的mai

linux下部署專案，下載檔案時，中文檔名亂碼問題

本人在linux伺服器的tomcat下部署一個war包專案，但是裡面建立中文檔名檔案一直亂碼，經過多重測試後找到解決方案：需要在Tomcat啟動的時候強制設定LC_ALL 環境變量 =zh_CN.UTF8，同時設定上Dfile.encoding=UTF8，如下圖是本人使用守護程序啟動to

Python基礎（18）：os和shutil模組，操作檔案及目錄

OS模組 os模組提供了作業系統的功能介面函式。常用方法如下： import os os.getcwd() #檢視當前所在路徑 os.listdir('E:\\book') #返回當前目錄下的所有檔案，以列表形式 os.pat

JSON資料格式：以及XML檔案格式，YML檔案格式，properties檔案格式

JSON資料格式：以及XML檔案格式，YML檔案格式，properties檔案格式資料格式： json資料格式：屬於輕量級資料格式，是javascript的一種描述資料的格式。具有易於解析，語法簡單的特點，廣泛應用與網路間的資料傳輸。 {"name":

Java自定義檔案型別下載，下載檔案時，頁面會直接開啟檔案而不能下載檔案。

問題：Java自定義檔案型別下載，下載檔案時，頁面會直接開啟檔案而不能下載檔案。解決：需要在tomcat/conf/下web.xml進行配置，若檔案字尾名為 .CAA,則 <mime-mapping> &n

多檔案上傳，使用js對檔案進行校驗，包括檔案單個大小，格式，總的檔案大小，檔案是否為空等

<%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); String basePath = reque

檔案描述符表，開啟檔案表，索引節點表

下圖是一個例項，其中描述符1和4通過不同的開啟檔案表表項來引用兩個不同的檔案，這是一種典型的情況，沒有檔案共享，並且每個描述符對應一個不同的檔案：多個描述符也可以通過不同的檔案表表項來引用同一個檔案。例如，如果以同一個檔名呼叫open函式2次，就會發生這種情況。關鍵思想是每個檔案描

linux磁碟分割槽，建立檔案系統，掛載，解除安裝，自動掛載

1 EMMC磁碟分割槽 fdisk -l /dev/mmcblk0，命令p檢視分割槽情況,n配置分割槽大小，w儲存配置，d刪除分割槽，p退出不儲存配置 2 瀏覽檔案系統情況dumpe2fs /dev/mmcblk0p1檢視是否有檔案系統 3 建立檔案

webpack+vue搭建後續，生成html，css檔案剝離，清除多餘檔案

1、安裝html-webpack-plugin cnpm install --save-dev html-webpack-plugin 將原來的index.html改成index.tmpl.html，並移除裡面的script標籤。 webpack.config.js

python查詢功能，查詢檔案內容，獲取需要的部分並返回，很實用的

要實現的功能__name__系統變數設計規範python檔案只寫功能，不會執行的功能可以執行的部分，寫在測試程式碼時也寫在這裡開始寫功能選單響應字典執行響應如何一步就從裡層迴圈直接退出全部的讀檔案並在

android中 mdpi，hdpi，xhdpi，xxhdpi檔案理解，圖片畫素理解

1，我們在開發的時候，特別是剛開始入行的時候會有疑惑，為什麼那麼多資料夾放圖片，比如mdpi，hdpi，xhdpi，xxhdpi，從ui手裡拿到圖片我到底該放在哪呢？今天就來分享一下，圖片應該放在哪，並分享一下圖片裡我理解的畫素點。網上有很多描述這些檔案的文章，大家可

必須拿下的java面試題，來過一篇，看你卡到第幾題？

必須拿下的java面試題，來過一篇，看你卡到第幾題？靜態方法只能訪問靜態成員，例項方法可以訪問靜態和例項成員。之所以不允許靜態方法訪問例項成員變數，是因為例項成員變數是屬於某個物件的，而靜態方法在執行時，並不一定存在物件。靜態方法中也不能使用關鍵字this。倒排索引 In

>pyinstaller -F -w -i D:\tmp\main.ico D:\python_test.py -F 表示生成單個可執行檔案,執行後dist目錄中出現了python_test.exe

pyinstaller -F -w -i D:\tmp\main.ico D:\python_test.py -F 表示生成單個可執行檔案,執行後dist目錄中出現了python_test.exe檔案，沒有任何依賴庫，執行它即可。 -w 表示去掉控制檯視窗，這在GUI介面時

linux檢視檔案的前/後幾行

tail -n 20 filename 說明：顯示filename最後20行。 Linux下tail命令的使用方法 linux tail命令用途是依照要求將指定的檔案的最後部分輸出到標準裝置，通常是終端，通俗講來，就是把某個檔案檔案的最後幾行顯示到終端上，假設該檔案有更

編寫MapReduce :統計每個關鍵詞，所在檔案及，第幾行出現了多少次

相關推薦