MapReduce處理xml檔案（使用舊API）

阿新 • • 發佈：2019-02-09

1）MapReduce專案引入jar包：hadoop-streaming-2.6.5.jar
2）main函式主要程式碼段：

JobConf jobconf = new JobConf(new Configuration(), MreMroParser.class);
jobconf.setJobName("xmlParser");
//這裡標記使用流式輸入
jobconf.set("stream.recordreader.class",StreamXmlRecordReader.class.getName());
//開始標記為<bulkPmMrDataFile>
jobconf.set 
("stream.recordreader.begin", "<bulkPmMrDataFile>");
//結束標記為</bulkPmMrDataFile>
jobconf.set("stream.recordreader.end", "</bulkPmMrDataFile>"); 
// 設定reduce的輸出結果key和value用逗號分隔
jobconf.set("mapred.textoutputformat.ignoreseparator", "true");  
jobconf.set("mapred.textoutputformat.separator" 
, ",");

jobconf.setMapperClass(xmlParserMapper.class);  
jobconf.setReducerClass(xmlParserReducer.class); 
// 設定inputFormat            
jobconf.setInputFormat(StreamInputFormat.class);  
jobconf.setOutputFormat(TextOutputFormat.class); 

jobconf.setOutputKeyClass(Text.class);  
jobconf.setOutputValueClass 
(Text.class);  

MultipleInputs.addInputPath(jobconf, new Path(args[0]), StreamInputFormat.class,MreMroParserMapper.class);  
FileOutputFormat.setOutputPath(jobconf, new Path(args[1])); 

JobClient.runJob(jobconf);

3）Map函式xmlParserMapper.class核心程式碼：

public class MreMroParserMapper  extends MapReduceBase implements Mapper<Text, Text, Text, Text> {

  @Override
  /*
   * Context例項用於輸出內容的寫入
   * (non-Javadoc)
   * @see org.apache.hadoop.mapreduce.Mapper#map(KEYIN, VALUEIN, org.apache.hadoop.mapreduce.Mapper.Context)
   */
  public void map(Text key, Text value, OutputCollector<Text, Text> output, Reporter reporter)
      throws IOException {
    String xmlContent= key.toString();
    System.out.println("'" + xmlContent+ "'");
/*自定義XML解析函式，將xmlContent送入*/
………………
我是使用dom4j：

Document document = DocumentHelper.parseText(xmlContent); 
Element elementRoot = document.getRootElement();
解析後返回多記錄List resultDatas
………………
處理多記錄輸出：
for(int i=0;i<resultDatas.size();i++){
        String data = dataFormater.formatResultData(resultDatas.get(i));
        Text text = new Text();
        text.set(data);
        output.collect(new Text(resultDatas.get(i).getId()), text);
}

MapReduce處理xml檔案（使用舊API）

1）MapReduce專案引入jar包：hadoop-streaming-2.6.5.jar 2）main函式主要程式碼段： JobConf jobconf = new JobConf(new Configuration(), MreMroParser.cl

C++讀寫XML檔案（libxml2庫）

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

windows下ThinkPhP5使用ffmpeg處理視訊檔案（php5.6）

此方案本質上就是php呼叫了另一個程式去處理視訊檔案。 1、準備（1）tp環境（2）ffmpge檔案（3）我使用的是php版本是5.6 （4）伺服器環境是windows （5）apache版本為2

利用mysql解析xml檔案（demo版）

目的：利用儲存過程去解析xml檔案，先用Excel的巨集對輸入的格式（包括字典表）進行初步校驗，轉成xml格式檔案，當做一個欄位存入mysql臨時表，對xml進行解析，相當於多行資料存入一、mysql extractvalue函式解析xml檔案SET @temp_xml =

IIS7的整合模式下如何讓自定義的HttpModule不處理靜態檔案（.html .css .js .jpeg等）請求

轉載：https://www.cnblogs.com/opencoder/p/5854454.html ASP.NET 4.0後Web.config檔案的Module配置節點有一個可選項叫preCondition如下面程式碼所示： <system.webServer> <mod

C++讀寫XML檔案（使用tinyxml庫）

使用以下程式碼之前，需要下載TinyXml庫，幷包含到工程下 #include <stdio.h> #include "tinyxml.h" #include <iostream> #include <cstring> usin

解析XML檔案（二）

解析XML（二）繼續（一）的內容，接下來依然進行XML檔案的解析。 7.建立新節點，即Element；為節點新增屬性和子節點；將新節點新增到原來所有節點之後和中間程式碼如下： public class Demo05 { public stati

hive處理小檔案（進行map、reduce、壓縮、歸檔優化解決）

背景 Hive query將運算好的資料寫回hdfs（比如insert into語句），有時候會產生大量的小檔案，如果不採用CombineHiveInputFormat就對這些小檔案進行操作的話會產生大量的map task，耗費大量叢集資源，而且小檔案過多會對namenode造成很

XML基礎知識——寫入資料到XML檔案（二）

一、寫入資料到XML檔案中往XML檔案中寫入資料，特別要注意編碼問題，這裡寫入資料採用了兩種不同的編碼。一般情況下如果xml檔案時gb2312,就採用第一種方式，如果為UTF-8，就使用第二種方式寫

postgresql在windows下備份的批處理檔案（修改版），提示輸入密碼時，能自動輸入密碼

在網上找到一篇文章《PostgreSQL Windows自動備份指令碼》覺得不錯，試了一下，發現批處理檔案執行停止在提示輸入密碼那。 >pg_dump -U postgres -W database1 > c:/backup.tar >passwo

【學習筆記】使用python批量讀取並修改xml檔案（3）

在大老闆的安排下最近在某公司實習，實習期間要求實現一個影象識別模組的封裝。無奈基礎太薄弱，只能將任務細分，單獨學習來實現。以此為背景…… 經過公司師姐的指點，突然毛瑟頓開，編寫了V3.0的程式碼，可以實現的功能：使用者輸入欲改變的圖片尺寸後計算新的xml中bnb box的值、將圖片尺寸改變後

【學習筆記】使用python批量讀取並修改xml檔案（2）

在大老闆的安排下最近在某公司實習，實習期間要求實現一個影象識別模組的封裝。無奈基礎太薄弱，只能將任務細分，單獨學習來實現。以此為背景…… 這一篇記錄一些在實際使用中踩到的坑。在實際使用中，我在A資料夾下對圖片進行了標註，隨後將圖片移動到B資料夾下。那麼相應的，標註後的xml檔案中，<p

【學習筆記】使用python批量讀取並修改xml檔案（4）

在大老闆的安排下最近在某公司實習，實習期間要求實現一個影象識別模組的封裝。無奈基礎太薄弱，只能將任務細分，單獨學習來實現。以此為背景…… 程式碼更新V4.0版本，通過openCV實現xml中bounding box在原始影象和尺寸調整後的圖片中的視覺化（part three部分）。方便對比尺

Java實現CSV格式檔案的讀寫（操作API）

首先引入maven <dependency> <groupId>net.sourceforge.javacsv</groupId> <

Javascript實現ajax提交form表單到xml檔案（Javaweb）

（1）ajax實現非同步資料傳輸的原理：當我們使用ajax技術通過頁面與伺服器交換資料的時候，web ui實際上是將請求交給了ajax引擎去處理。這樣就使得ajax引擎充當了中轉站的角

IDEA Mybatis Plugin外掛（方便在Dao介面和Mappper XML檔案之間進行切換）

該外掛主要是在mapper介面方法和mapper XML檔案之間來回切換非常方便，極大的提高了開發效率在IDEA中搜索free Mybatis Plugin1、在工具欄有個圖片。prefrence2、搜

PullXml解析Xml檔案（一般用於安卓）

在移動端，對Xml解析一般是使用PullXml解析，其實還有另外兩種解析方式，Dom解析和SAX解析，各有優缺點，今天就先介紹Pull解析方式。要想使用Pull解析，需要先匯入jar包：給出Xml檔案如下： <note> <to> 小紅

Linux處理格式化檔案（awk、sort等）

目前有這樣的一些資料，獲取按照‘‘|’’ 分隔，按照第二列求第三列的和並按照和降序排序取前10資料 #用'|'分隔，按照第三列數值降序排序取前10 cat part-r-0000*|sort -t

Java程式設計操作XML檔案（生成方法四：DOM4J）

以DOM4J方式寫入 Document document = DocumentHelper.createDocument(); //建立Document物件，代表整個XML文件 Ele

Java程式設計中操作XML檔案（生成方法一：DOM）

以DOM方式寫入 DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance(); //建立工廠例項 Documen

MapReduce處理xml檔案（使用舊API）

相關推薦