mapreduce，整合數據字典表

阿新 • • 發佈：2017-11-20

mapreduce 數據字典表 hadoop

這個坑踩了好長。結果卻是map方法中的context寫錯位置，導致錯誤。

源數據內容。就是想數據表中的第二列替換成字典表中的第二列。即字典表中的紅色，換成字典表的藍色。

//數據表data.txt

//one 1 two qqq

//two 2 two ccc

//字典表zidian.txt

//1 男 1 sex

//2 女 2 sex

//3 未知 0 sex

//4 結婚 1 marry

//5 未婚 2 marry

//6 未知 0 marry

想要的結果就是

男

女

附上代碼：

import java.io.BufferedReader;

import java.io.FileReader;

import java.io.IOException;

import java.net.URI;

import java.net.URISyntaxException;

import java.util.HashMap;

import java.util.Iterator;

import java.util.Map;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.filecache.DistributedCache;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class Cache {

public static class Mapall extends Mapper<Object, Text, Text, Text> {

private Map<String, String> sexMap = new HashMap<String, String>();

private Path[] localFiles;

// 先做分布式緩存處理，將數據換成到內存中

public void setup(Context context) throws IOException {

Configuration conf = context.getConfiguration();

localFiles = DistributedCache.getLocalCacheFiles(conf);

for(int i = 0;i<localFiles.length;i++) {

String a ;

BufferedReader br = new BufferedReader(new FileReader(localFiles[i].toString()));

while ((a = br.readLine()) != null && a.split("\t")[3].equals("sex")) {

//以數據作為key，文字作為value

sexMap.put(a.split("\t")[2], a.split("\t")[1]);

}

br.close();

}

@SuppressWarnings("unlikely-arg-type")

public void map(Object key, Text value, Context context) throws IOException, InterruptedException {

// 獲取sex字段,是1,2這樣的數據

String sex = value.toString().split("\t")[1];

// 如果key部分有1,2這種形式，就替換成男、女這樣的內容

if (sexMap.keySet().equals(sex)) {

}

context.write(new Text(sexMap.get(sex)), new Text(""));

//就是這裏，坑我好久的時間。

}

public static class Reduce extends Reducer<Text, Text, Text, Text> {

public void reduce(Text key, Iterator<Text> values, Context context) throws IOException, InterruptedException {

context.write(key, new Text(""));

}

public static void main(String[] args)

throws URISyntaxException, IOException, ClassNotFoundException, InterruptedException {

Configuration conf = new Configuration();

DistributedCache.addCacheFile(new URI("hdfs://192.168.20.39:8020/qpf/zidian.txt"), conf);

Job job = Job.getInstance(conf, "get cache file");

job.setJarByClass(Cache.class);

job.setMapperClass(Mapall.class);

job.setReducerClass(Reduce.class);

job.setOutputKeyClass(Text.class);

job.setOutputValueClass(Text.class);

FileInputFormat.addInputPath(job, new Path("hdfs://192.168.20.39:8020/qpf/data.txt"));

FileOutputFormat.setOutputPath(job, new Path("hdfs://192.168.20.39:8020/qpf/data_out"));

System.exit(job.waitForCompletion(true) ? 0 : 1);

}

很簡單的一個數據替換的小例子。

本文出自 “白話” 博客，請務必保留此出處http://feature09.blog.51cto.com/12614993/1983555

mapreduce，整合數據字典表

mapreduce 數據字典表 hadoop這個坑踩了好長。結果卻是map方法中的context寫錯位置，導致錯誤。源數據內容。就是想數據表中的第二列替換成字典表中的第二列。即字典表中的紅色，換成字典表的藍色。//數據表data.txt//one 1 two qqq//two

處理海量數據的模式MapReduce，大規模數據集的並行運算

海量數據 mapreduce MapReduce是一種處理海量數據的並行編程模式，用於大規模數據集（通常大於1TB）的並行運算。“Map（映射）”、“Reduce（化簡）”的概念和主要思想，都是從函數式編程語言和矢量編程語言借鑒。適合非結構化和結構化的海量數據的搜索、挖掘、分析與機器智能學習等。Map

ssh框架提交表單數據後，數據庫表出現問號？的解決方法

div nco pla play character isp 指定提交表單 span 解決方法如下：連接數據庫的時候需要指定編碼方式，如下所示： jdbc.url = jdbc:mysql:///dbName?useUnicode=true&charact

解鎖用戶及數據庫表，鎖死進程

blog 取出權限 sta 數據 rom count eight orm 1 一丶解鎖用戶 2 --修改時間格式 3 alter session set nls_date_format = ‘yyyy-MM-dd hh24:mi:ss‘; 4 5 --查詢鎖

第二百八十節，MySQL數據庫-外鍵鏈表之一對多

一個 -1 blog logs bsp com span 連接 col MySQL數據庫-外鍵鏈表之一對多外鍵鏈表之一對多外鍵鏈表：就是a表通過外鍵連接b表的主鍵，建立鏈表關系一對多：就是b表的某一個字段值對應a表外鍵裏的多個值，前提是a表要與b表鏈表第二百

sqlserver數據庫表中字段值有空格，如何去除空格（例如char (5) 存入數據不足5位時sqlserver會自動補空格）

ltrim blog class 有時找到 logs head 字段 div 普通的空格前後的空格，使用LTrim和RTrim即可，例如：LTrim(RTrim(Name)) 中間的空格，使用replace函數替換，例如：Replace(Name,‘ ‘,‘‘)

轉一篇MYSQL文章《數據庫表設計，沒有最好只有最適合》

其他 eqv 新的 fmt 記錄 ces 末尾 base64 過程 http://mp.weixin.qq.com/s/a8klpzM5iam0_JYSw7-U4g 我們在設計數據庫的時候，是否會突破常規，找到最適合自己需求的設計方案，下面來舉個例子：常用的鄰接表設計

黑馬程序猿——26，基本數據操作流，字節數組操作流，轉換流，編碼表

inpu ascii ref 程序猿 har 科學標準 name 字符數 -----------android培訓、java培訓、java學習型技術博客、期待與您交流！------------ 黑馬程序猿——26， DataI

表單中的添加，新增數據－測試思考點

nbsp es2017 src 新增 http ges 9.png 測試 alt 表單中的添加，新增數據－測試思考點

Spring Boot + JPA(hibernate 5) 開發時，數據庫表名大小寫問題

hibernate mysql spring boot 大小寫這幾天在用spring boot開發項目，在開發的過程中遇到一個問題hibernate在執行sql時，總會提示表不存在。尋找之後發現，建表時，表統一采用了大寫。hibernate會把大寫統一轉換成小寫。且 mysql在 lin

ORACLE數據庫，數據量大，轉移數據到備份表語句

lec sele temp oracle數據 time 查詢 inf from sel INSERT INTO TEMP_BUS_TRAVEL_INFO ( SELECT * FROM BUS_TRAVEL_INFO t where to_Char( start_tim

flask（十）使用alembic，進行數據庫結構管理，升級，加表，加項

pan bsp 工作 group 數據 none 如果找到 ask 1.安裝擴展，在虛擬環境中安裝 alembic，不懂可以去看pycharm的系列文章。 2.初始化，使用 Alembic 前需要通過 alembic init 命令創建一個 alembic 項目，該命令

ssh整合思想 Spring與Hibernate的整合項目在服務器啟動則自動創建數據庫表

dtd 啟動 mysql5 建立 color 思想 bean .hbm.xml lte Spring整合Hibernate Spring的Web項目中，web.xml文件會自動加載，以出現歡迎首頁。也可以在這個文件中對Spring的配置文件進行監聽，自啟動配置文件，以及之

mysql5.7基礎 insert 表中含有自動增長的字段，插入數據時用NULL

mys fec affect style 抉擇數據庫管理系統 cas blog values 禮悟：　　公恒學思合行悟，尊師重道存感恩。葉見尋根三返一，江河湖海同一體。虛懷若谷良心主，願行無悔給最苦。讀書鍛煉養身心，誠勸且行且珍惜。　

InnoDB數據字典詳解-系統表

InnoDB 數據字典1、簡介 InnoDB中，實際上看不到系統表。有4個最基本的系統表來存儲表的元數據：表、列、索引、索引列等信息。這4個表分別是SYS_TABLES、SYS_COLUMNS、SYS_INDEXES、SYS_FIELDS。下面分別介紹 2、SYS_TABLES 存儲所有以InnoDB為存儲引

InnoDB數據字典--字典表加載

InnoDB 數據字典加載1、介紹在InnoDB啟動時，如果是新建數據庫則需初始化庫，需要創建字典管理的相關信息。函數innobase_start_or_create_for_mysql調用dict_create完成此功能。即創建數據字典，因為InnoDB系統表的個數結構固定，所以初始化庫的時候只需

薪酬數據分析，第二式：數據透視表

.com src OS body png 來源技術分享圖片技術五個要素：數據來源行字段列字段值字段（統計和匯總功能）篩選器薪酬數據分析，第二式：數據透視表

數據庫表設計（一對多，多對多）

關系 log 一個數據庫 inf 對應關系分享圖片也有通過做一個項目，必然是少不了數據庫設計的！在學習階段，基本都是單表。然而在實際開發過程中，一對多，多對多的表處處都是！簡單整理一下，一對多，多對多表如何設計整理一下思路：數據庫

實驗：模擬場景中誤刪除mysql數據庫表，然後使用全備份以及二進制日誌文件恢復操作

skip images 目錄 mysqldump 系統 cde tables ransac 環境一、實驗環境： 1、準備兩臺虛擬機，一臺用於破壞數據庫，一臺用於還原，兩臺在同一個網絡 2、兩臺最小化安裝centos 7系統，並直接yum安裝maraidb數據庫 3、準備一

mybatis根據數據庫表結構自動生成實體類，dao，mapper

nts cat mybatis pack edt enc ren val 執行首先， pom需要引入  <dependency> <groupId>mysql</groupI

mapreduce，整合數據字典表

相關推薦