spark叢集從HDFS中讀取資料並計算

阿新 • • 發佈：2019-01-05

一、利用spark從hadoop的hdfs中讀取資料並計算

1.1準備階段

部署好hadoop分散式搭建（+zookeeper，6臺機器）可以參考這篇部落格：http://blog.csdn.net/vinsuan1993/article/details/70155112

主機名	IP	安裝的程式	執行的程序
Heres01	192.168.2.108	jdk、hadoop、zookeeper、spark	DataNode JournalNode Master QuorumPeerMain NodeManager
Heres02	192.168.2.99	jdk、hadoop、zookeeper、spark	DataNode JournalNode Worker QuorumPeerMain NodeManager
Heres03	192.168.2.109	jdk、hadoop、zookeeper、spark	DataNode JournalNode Worker QuorumPeerMain NodeManager
Heres04	192.168.2.113	jdk、hadoop	ResourceManager
Heres05	192.168.2.112	jdk、hadoop	DFSZKFailoverController NameNode
Heres06	192.168.2.110	jdk、hadoop	DFSZKFailoverController NameNode

部署好spark叢集，可以參考這篇部落格：http://blog.csdn.net/vinsuan1993/article/details/75578441

1.2啟動hdfs

1.2.1啟動zookeeper叢集（分別在heres01、heres02、heres03上啟動zk）

cd/heres/zookeeper-3.4.5/bin/

./zkServer.shstart

#檢視狀態：一個leader，兩個follower

./zkServer.shstatus

1.2.2啟動journalnode（在heres01上啟動所有journalnode，注意：是呼叫的hadoop-daemons.sh這個指令碼，注意是複數s的那個指令碼）

cd/heres/hadoop-2.2.0

sbin/hadoop-daemons.shstart journalnode

#執行jps命令檢驗，heres01、heres02、heres03上多了JournalNode程序

1.2.3啟動HDFS(在heres01上執行)

sbin/start-dfs.sh

到此，hadoop2.2.0配置完畢，可以通過瀏覽器訪問:

http://192.168.2.110:50070

NameNode'heres06:9000' (active)

http://192.168.2.112:50070

NameNode 'heres05:9000' (standby)

1.3.啟動spark叢集

/bigdata/spark-1.6.1-bin-hadoop2.6/sbin/start-all.sh

1.4.啟動spark-shell

bin/spark-shell --masterspark://heres01:7077 --executor-memory 512m --total-executor-cores 2

注：“-”前面是沒有空格的，否則會報錯

1.5.上傳檔案到hdfs上

hdfs dfs-mkdir /wc

dfs dfs -ls /

hdfs dfs-put words.txt /wc/1.log

hdfs dfs-put words.txt /wc/2.log

hdfs dfs -put words.txt /wc/3.log

1.6.在spark-shell中編寫spark程式

sc.textFile("hdfs://heres06:9000/wc").flatMap(_.split("")).map((_,1)).reduceByKey(_+_).sortBy(_._2,false).collect

sc.textFile("hdfs://heres06:9000/wc").flatMap(_.split("")).map((_,1)).reduceByKey(_+_).sortBy(_._2,false).saveAsTextFile("hdfs://heres06:9000/vinout")

結果會生成三個檔案

sc.textFile("hdfs://heres06:9000/wc").flatMap(_.split("")).map((_,1)).reduceByKey(_+_,1).sortBy(_._2,false).saveAsTextFile("hdfs://heres06:9000/vinout1")

結果會生成一個檔案

spark叢集從HDFS中讀取資料並計算

一、利用spark從hadoop的hdfs中讀取資料並計算 1.1準備階段部署好hadoop分散式搭建（+zookeeper，6臺機器）可以參考這篇部落格：http://blog.csdn.net/vinsuan1993/article/deta

python實現從檔案中讀取資料並繪製成 x y 軸圖形

import matplotlib.pyplot as plt import numpy as np def readfile(filename): dataList = [] dataNum = 0 with open(filename,'r')

HBase建表高階屬性，hbase應用案例看行鍵設計，HBase和mapreduce結合，從Hbase中讀取資料、分析，寫入hdfs，從hdfs中讀取資料寫入Hbase，協處理器和二級索引

1. Hbase高階應用 1.1建表高階屬性下面幾個shell 命令在hbase操作中可以起到很到的作用，且主要體現在建表的過程中，看下面幾個create 屬性 1、 BLOOMFILTER 預設是NONE 是否使用布隆過慮及使用何種方式布隆

python檔案讀寫（從file1中讀出資料並計算，然後將結果寫入到file2中）

要求新建兩個檔案，file1、file2，要求開啟file1檔案，分別對每一行數字進行求和，並將每一行的結果寫在file2中。 file1: 20 30 40 20 52 63 52 52 85 52 8 456 522 25 36 85 96 74 程式原始碼：定義一個求和函式

向HBase中匯入資料3：使用MapReduce從HDFS或本地檔案中讀取資料並寫入HBase（增加使用Reduce批量插入）

前面我們介紹了：為了提高插入效率，我們在前面只使用map的基礎上增加使用reduce，思想是使用map-reduce操作，將rowkey相同的項規約到同一個reduce中，再在reduce中構建put物件實現批量插入測試資料如下:注意到有兩條記錄是相似的。package cn

MapReduce功能實現四---小綜合(從hbase中讀取資料統計並在hdfs中降序輸出Top 3)

MapReduce功能實現系列：方法一：在Hbase中建立相應的表1： create 'hello','cf' put 'hello','1','cf:hui','hello world' put 'hello','2','cf:hui','h

【120】TensorFlow 從CSV檔案中讀取資料並訓練線性迴歸模型（面向新手）

正文開始。學習 TensorFlow 讓我的思維發生了變化。計算機本質上是一種數學的工具，而我在學習程式設計的時候，思維也不可避免地收到了影響。傳統的程式設計思想，常常認為程式就應該像數學定理或者數學函式一樣，給出一個確定的結果。這是一種基於邏輯推導

從txt檔案中讀取資料並賦值給Mat

一直想把相機標定的內參和畸變直接從txt檔案中讀取，並賦值給Mat。現在程式碼如下，交流注：本人是基於Qt來進行程式設計，程式碼可以直接複用，貼上相應部分就行。void initMat(Mat &

Spark支援四種方式從資料庫中讀取資料

目前Spark支援四種方式從資料庫中讀取資料，這裡以Mysql為例進行介紹。一、不指定查詢條件　　這個方式連結MySql的函式原型是： def jdbc(url: String, table: String, properties: Properties):

Spark Streaming從Kafka中獲取資料，並進行實時單詞統計，統計URL出現的次數

1、建立Maven專案 2、啟動Kafka 3、編寫Pom檔案 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.or

從資料庫中讀取資料，建立XML檔案並更新維護XML

public class OperateXML { /// <summary> /// 檔案全路徑 /// </summary> private string fullF

分散式sparkSQL引擎應用：從遠端通過thriftServer連線spark叢集處理hive中的資料

實現原理：客戶端(java程式)與thriftServer連線，thriftServer再代理客戶端轉換成spark的操作流程，再載入hive的資料到spark的worker節點，並執行Map-Re

Pig指令碼從Hive中load資料並存入到Hbase中

1、我們先建一個Hive表test01: create table test01(name String, age int, phone String,province String, city String) ROW FORMAT DELIMITED FIELDS TERMINATED B

python 從檔案中讀取資料，同時去除掉空格和換行

從檔案中讀取資料，同時去除掉空格和換行，程式碼如下 import numpy as np def sort(path): w = open(path,'r') l = w.readlines() col=[] for k in l: k = k.strip('\n')

Hive從HDFS中載入資料

建表以手機流量資訊為例插入30w行資料 create table flow(id string,phonenum string,mac string,ip string,num1 int,num2 int,up in

從HDFS中讀取檔案

2013-02-01 周海漢 2013.2.1 本程式碼可以從本地或hdfs系統中讀取檔案兩次，並在終端打印出來。 /** * test read file from hdfs */ package my.test;

Prefuse學習(二)從資料庫中讀取資料

prefuse是一個非常不錯的開源視覺化專案，尤其是用在social network/complex network上，個人感覺要比jung好。不過可惜的是，prefuse的user manual還在建

怎麼從excel中讀取資料_python

下載擴充套件庫 xlrd 讀excle xlwt 寫excle 直接在百度上搜就能下載下載後使用 import xlrd 就可以讀excle檔案了開啟檔案： xls = xlrd.open_workbook(fileName) 選擇表：括號內為第幾個表 sheet

關於python從Oracle中讀取資料中文全是問號的問題

用python連線Oracle資料庫，結果讀取出來的資料，中文部分全是問號，利用： import chardet print(chardet.detect(i)) 發現是ASCII，用了encode和decode來進行轉碼，結果都沒用，最後找到一個帖子，終於將問題解決，只要在程式碼中新增：

python matplotlib從檔案中讀取資料繪製散點圖

示例說明：從一個檔案讀取資料，繪製成散點圖 #coding:utf-8 import matplotlib.pyplot as plt import numpy as np import matpl

spark叢集從HDFS中讀取資料並計算

相關推薦