Spark-Unit2-Spark互動式命令列與SparkWordCount

阿新 • • 發佈：2019-01-13

一、Spark互動式命令列

　　啟動指令碼：spark-shell

　　先啟動spark：./start-all.sh

　　本地模式啟動命令：/bin/spark-shell

　　叢集模式啟動命令：/bin/spark-shell --master spark://spark-1:7077 --total-executor-cores 2 --executor-memory 500mb　　　　　　//註釋：spark叢集模式預設使用全部的核心數，預設使用記憶體大小為1024Mb

　　1.用shell的叢集模式去執行一個本地wordcount程式：

　　sc.textFile("/root/words.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect

　　注意：1）當使用叢集模式對本地檔案進行wordcount時，會報找不到檔案的異常，在執行前要保證在每個節點上的對應路徑有被執行的檔案（將檔案從主節點分發到從節點即可）。

　　　　　2）本地模式對本地檔案進行wordcount時就不需要，因為本地模式是使用master主節點跑任務，而叢集模式是使用workers去計算。

　　2.用shell的叢集模式去對一個hdfs上的檔案執行wordcount:

　　sc.textFile("hdfs://192.168.50.186:9000/words.txt").flatMap(_.split(" ")).map((_._)).reduceByKey(_+_).collect

二、用Idea寫Spark-WordCount

　　1.在Idea端建立maven工程，將pom檔案所需要的配置命令程式碼貼上到pom檔案，並自動匯入相關依賴包。

　　2.在main資料夾中建立scala資料夾（注意：要將其轉為可用的資料夾 ”source root“）

　　3.建立一個object單例物件，程式碼如下：

object SparkWordCount {
   def main(args:Array[String]):Unit ={
      //1.定義並設定配置資訊
      val conf:SparkConf = new SparkConf().setAppName("SparkWordCount").setMaster("local[2]")

      //2.定義spark程式入口sparkcontext，並接收配置conf
      val sc:SparkContext = new SparkContext(conf)

      //3.呼叫sc載入資料、處理資料、儲存資料
      sc.textFile(args(0))
      .flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_)
      .saveAsTextFile(args(1))

      //4.關閉資源
      sc.stop() 
  }  
}

　　4.新增配置資訊Add Configuration

　　分別新增主類名：Main class、　　程式引數：Program arguments

　　確定然後執行程式。

　　注意：程式產生的結果檔案有兩個，而且結果可能隨機分佈在兩個檔案中，這是由於spark的自定義分割槽造成的（後面筆記會專門總結自定義分割槽）

***將寫好的程式打包提交到spark叢集中執行：

　　1.在maven工程中package打包，會出現兩個jar包（大的包含依賴包環境，小的只有程式碼）；

　　2.將大的jar包上次到叢集，執行命令：

　　　　bin/spark-submit --master spark://spark-1:7077 \

　　　　--class SparkWordCount /root/SparkWC-1.0-SNAPSHOT.jar \

　　　　hdfs://192.168.50.186:9000/wc.txt hdfs://192.168.50.186:9000/sparkwc

　　3.執行完成後檢視hdfs端產生的結果檔案。

Spark-Unit2-Spark互動式命令列與SparkWordCount

一、Spark互動式命令列　　啟動指令碼：spark-shell 　　先啟動spark：./start-all.sh 　　本地模式啟動命令：/bin/spark-shell 　　叢集模式啟動命令：/bin/spark-shell --master spark://spark-1:7077 --tot

Linux命令列與shell指令碼程式設計大全（二）

十一、處理使用者輸入命令列引數讀取引數： $0是程式名,$1是第一個引數，$2是第二個引數，以此類推，直到第9個引數$9。當引數個數超過10以後，需要在變數數字周圍加上花括號，如${10},如果輸入到命令列的引數是字串且含有空格，需要使用引號。 #! /bin/bash echo

Linux命令列與shell指令碼程式設計大全（一）

一、基本 bash shell命令建立檔案： touch 連結檔案：符號連結：是一個實實在在的檔案，兩個通過符號連結在一起的檔案，彼此的內容並不相同。使用ln -s命令。硬連結：會建立獨立的虛擬檔案，其中包含了原始檔案的資訊及位置。但他們從根本上而言是同一個檔案。原始檔案必須事

Linux命令列與shell指令碼程式設計大全（三）

十二、呈現資料輸入和輸出標準檔案描述符 0 STDIN 標準輸入 &n

《Linux命令列與shell指令碼程式設計大全》讀書筆記————第三章基本的bash shell命令

本章內容 1、使用shell 2、bash手冊 3、瀏覽檔案系統 4、檔案和目錄列表 5、管理檔案和目錄 6、檢視檔案內容 3.3 bash手冊命令： man xterm 作用：檢視檢視xterm使用者手冊 man命

《Linux命令列與shell指令碼程式設計大全》讀書筆記————第一章初識Linux shell

本章內容 1、什麼是Linux 2、Linux核心的組成 1、1 什麼是Linux Linux課劃分為以下四部分 a）Linux核心 b）GNU工具 c）圖形化桌面環境 d）應用軟體 1.1.1 深入探究Linux核心

GNU Wget 1.20 釋出，非互動式命令列下載工具

GNU Wget 1.20 已釋出，GNU Wget 是一個非互動式的命令列下載工具，支援 HTTP、HTTPS、FTP 和 FTPS 等廣泛使用的網路協議。值得注意的更新：新增 `--retry-on-host-error` 選項，用於將 local error 視為臨

Linux命令列與Shell指令碼程式設計大全（四）

一、建立函式 1.基本的指令碼函式 1.1 建立函式 function name { commands} 1.2 使用函式在行中指定函式名就行了 ## 建立函式，注意函式名和大括號中間有空格，不然會報錯 function func1 { echo "

RabbitMQ命令列與管控臺-高階操作

rabbitmqctl stop_app：關閉應用 rabbitmqctl stop_app：啟動應用 rabbitmqctl status：節點狀態 rabbitmqctl add_user username password：新增使用者 rabbitmqctl l

《linux命令列與shell指令碼程式設計大全》第三版

《linux命令列與shell指令碼程式設計大全》全書4部分：☆ 【1】linux命令列(1-10章)☆ 【2】shell指令碼程式設計基礎(11-16章)☆ 【3】高階shell指令碼程式設計(17-23章)：正則表示式☆ 【4】建立實用的指令碼(24-26章)>

使用 Node.js 構建互動式命令列工具

使用 Node.js 構建一個根據詢問建立檔案的命令列工具。當用於構建命令列介面（CLI）時，Node.js 十分有用。在這篇文章中，我將會教你如何使用 Node.js 來構建一個問一些問題並基於回答建立一個檔案的命令列工具。開始首先，建立一個新的 npm 包（NPM 是 JavaScript 包

Python多版本情況下快速進入互動式命令列非常實用的四個小技巧！

上一篇文章中，小編已經教過大家安裝Python環境了。這篇文章我來教大家如何辨別多版本Python的切換問題，我主要整理了一下四個技巧，希望能幫大家拔出這根眼中刺！ 1、直接在命令列視窗中輸入命令“python”，便可以進入命令行了，如下圖所示。

Centos7.1 命令列與圖形化介面登陸

1. 命令列方式登陸 systemctl set-default multi-user.target 2. 圖形化介面登陸 systemctl set-default graphical.tar

Linux Shell遠端執行命令（命令列與指令碼方式）

shell遠端執行：　經常需要遠端到其他節點上執行一些shell命令，如果分別ssh到每臺主機上再去執行很麻煩，因此能有個集中管理的方式就好了。一下介紹兩種shell命令遠端執行的方法。前提條件：　　配置ssh免密碼登陸對於簡單的命令：　　如果是簡單執行幾個命令，則： ssh [em

巧用TexturePacker命令列,與ant整合

TexturePacker做的非常出色，打包紋理，製作spritesheet的首選利器，它的完美還體現在檢視與命令的分離，提供了完善的命令列工具，功能完全覆蓋了介面所提供的功能，而且效率更快。相信做技術的還是最喜歡使用命令列功能，因為其可以配合一些指令碼完全避免掉瑣碎的手

Linux命令列與shell指令碼（20）--例項：備份檔案

建立一個配置檔案，該檔案包含了要備份的每個目錄或檔案 $ cat files_backup_config /Users/chenhong/Desktop/shell_workspace/my

【原創】命令列與python_基於powershell的命令列

一起源和官方文件學命令列，來自於《笨辦法學python》這本書，作者強調要先用python2和powershell 我確實也是先這麼幹的，所以先學了powershell 官方文件 powershell微軟官方手冊 https://docs.microso

在Win 10右鍵選單新增開啟命令列(與powershell共存)

1 在win10自帶設定的修改(非必要) 雖說Powershell功能可能比cmd強大,但很多時候路徑以及一些命令的處理真的不如用cmd方便. 如下圖, win10自帶設定中只可以將組合鍵[ Win+X ]的選單中選項調成cmd, 但在桌面按[ shift+滑

學習《Linux命令列與shell指令碼程式設計大全》

【馬哥私房菜】親情推出《linux shell指令碼攻略》視訊教程【馬哥私房菜】親情推出 git 視訊教程《Linux命令列與shell指令碼程式設計大全》第三版學習筆記第1部分 Part 1 Linux 命令列第1 章初識

Linux命令列與shell指令碼（12）--控制指令碼

處理訊號 Ctrl+C組合鍵會產生SIGINT訊號，會停止shell中當前執行的程序 Crtl+Z組建鍵會產生SIGTSTP訊號，停止shell中執行的任何程序，停止程序會讓程式繼續保留在記憶體中，

Spark-Unit2-Spark互動式命令列與SparkWordCount

相關推薦