Spark入門1（WordCount實現）

阿新 • • 發佈：2017-11-25

article sco ack 系列 .text col lines count sta

 1 package com.test
 2 
 3 
 4 import org.apache.spark.{SparkConf, SparkContext}
 5 
 6 
 7 object WordCount {
 8   def main(args: Array[String]) {
 9     /**
10       * 第1步；創建Spark的配置對象SparkConf，設置Spark程序運行時的配置信息
11       * 例如 setAppName用來設置應用程序的名稱，在程序運行的監控界面可以看到該名稱，
12       * setMaster設置程序運行在本地還是運行在集群中，運行在本地可是使用local參數，也可以使用local[K]/local[*],
 
13       * 可以去spark官網查看它們不同的意義。 如果要運行在集群中，以Standalone模式運行的話，需要使用spark://HOST:PORT
14       * 的形式指定master的IP和端口號，默認是7077
15       */
16     val conf = new SparkConf().setAppName("WordCount").setMaster("local")
17     //  val conf = new SparkConf().setAppName("WordCount").setMaster("spark://master:7077")  // 運行在集群中 

18 
19     /**
20       * 第2步：創建SparkContext 對象
21       * SparkContext是Spark程序所有功能的唯一入口
22       * SparkContext核心作用： 初始化Spark應用程序運行所需要的核心組件，包括DAGScheduler、TaskScheduler、SchedulerBackend
23       * 同時還會負責Spark程序往Master註冊程序
24       *
25       * 通過傳入SparkConf實例來定制Spark運行的具體參數和配置信息
26       */
27     val sc = new 
 SparkContext(conf)
28 
29     /**
30       * 第3步： 根據具體的數據來源(HDFS、 HBase、Local FS、DB、 S3等)通過SparkContext來創建RDD
31       * RDD 的創建基本有三種方式： 根據外部的數據來源(例如HDFS)、根據Scala集合使用SparkContext的parallelize方法、
32       * 由其他的RDD操作產生
33       * 數據會被RDD劃分成為一系列的Partitions，分配到每個Partition的數據屬於一個Task的處理範疇
34       */
35 
36     val lines = sc.textFile("D:/wordCount.txt")   // 讀取本地文件
37     //  val lines = sc.textFile("/library/wordcount/input")   // 讀取HDFS文件，並切分成不同的Partition
38     //  val lines = sc.textFile("hdfs://master:9000/libarary/wordcount/input")  // 或者明確指明是從HDFS上獲取數據
39 
40     /**
41       * 第4步： 對初始的RDD進行Transformation級別的處理，例如 map、filter等高階函數來進行具體的數據計算
42       */
43     val words = lines.flatMap(_.split(" ")).filter(word => word != " ")  // 拆分單詞，並過濾掉空格，當然還可以繼續進行過濾，如去掉標點符號
44 
45     val pairs = words.map(word => (word, 1))  // 在單詞拆分的基礎上對每個單詞實例計數為1, 也就是 word => (word, 1)
46 
47     val wordscount = pairs.reduceByKey(_ + _)  // 在每個單詞實例計數為1的基礎之上統計每個單詞在文件中出現的總次數, 即key相同的value相加
48     //  val wordscount = pairs.reduceByKey((v1, v2) => v1 + v2)  // 等同於
49 
50     wordscount.collect.foreach(println)  // 打印結果，使用collect會將集群中的數據收集到當前運行drive的機器上，需要保證單臺機器能放得下所有數據
51 
52     sc.stop()   // 釋放資源
53 
54   }
55 }

來自博客：

http://blog.csdn.net/dwb1015/article/details/52013362

Spark入門1（WordCount實現）

article sco ack 系列 .text col lines count sta 1 package com.test 2 3 4 import org.apache.spark.{SparkConf, SparkContext} 5 6 7

spark入門二（運算元介紹核wordcount入門）

[[email protected] ~]# cd /usr/local/apps/spark-2.3.2-bin-hadoop2.7/ [[email protected] spark-2.3.2-bin-hadoop2.7]# ./sb

SpringBoot入門-1（Hello Word Boot）

eas hand running 頁面 .cn tpm 2.3 src size 　　1、創建一個Maven項目，添加一個parent，代碼如下 <parent> <groupId>org.springframework.boot

排序算法入門之希爾排序（java實現）

入門介紹插入一次變化 shells ngx i++ ava 希爾排序是對插入排序的改進。插入排序是前面元素已經有序了，移動元素是一個一個一次往後移動，當插入的元素比前面排好序的所有元素都小時，則需要將前面所有元素都往後移動。希爾排序有了自己的增量，可以理

排序算法入門之快速排序（java實現）

大小 ava 相對其余時間個數技術分享算法元素交換　　快速排序也是一種分治的排序算法。快速排序和歸並排序是互補的：歸並排序將數組分成兩個子數組分別排序，並將有序的子數組歸並以將整個數組排序，會需要一個額外的數組；而快速排序的排序方式是當兩個子數組都有序

Spark入門3（累加器和廣播變量）

不同默認 drive 定義函數 kryo 序列化任務啟動一、概要　　通常情況下，當向Spark操作傳遞一個函數時，它會在一個遠程集群節點上執行，它會使用函數中所有變量的副本。這些變量被復制到所有的機器上，遠程機器上並沒有被更新的變量會向驅動程序回傳。在任務之間使

【ASP.NET Core快速入門】（十四）MVC開發：UI、 EF + Identity實現

dfa models cti ted lec inpu word pri numeric 前言之前我們進行了MVC的web頁面的Cookie-based認證實現，接下來的開發我們要基於之前的MvcCookieAuthSample項目做修改。 MvcCookieAuth

WordCount（JAVA實現）

201631103228,201631101227 1.專案需求對程式設計語言原始檔統計字元數、單詞數、行數，統計結果以指定格式輸出到預設檔案中，以及其他擴充套件功能，並能夠快速地處理多個檔案。

演算法題1：反轉整數（python3實現）

給定一個 32 位有符號整數，將整數中的數字進行反轉。示例 1: 輸入: 123 輸出: 321 示例 2: 輸入: -123 輸出: -321 示例 3: 輸入: 120 輸出: 21 注意: 假設我們的環境只能儲存 32 位有符號整數

演算法競賽入門經典（第二版）第三章陣列和字串習題3-1得分

給出一個由O和X組成的串（長度1-80）統計得分。每個O的得分為目前連續出現的O的個數，X的得分為0。 #include <stdio.h> int main() { int b=0,c=0; int j=1; char a[80]; scan

演算法競賽入門經典（第二版）第三章陣列和字串中競賽題目選講1

3-1例題tex中的引號在TeX中，左雙引號是“"”,右雙引號是“"”,輸入一篇包含雙引號的文章你的任務是把它轉換成tex的格式樣例輸入: “you are smart，” 樣例輸出 “you are smart，” 使用fgetc(fin)可以開啟的檔案f

LR(1)分析法的總控的實現（C++實現）

LR(1)分析法實驗設計思想及演算法（1）若ACTION[sm , ai] = s則將s移進狀態棧，並把輸入符號加入符號棧，則三元式變成為：(s0s1…sm s , #X1X2…Xm ai , ai+1…an#) （2）若ACTION[sm , ai] =

ElasticSearch最佳入門實踐（七十）優化寫入流程實現海量磁碟檔案合併（segment merge，optimize）

每秒一個segment file，檔案過多，而且每次search都要搜尋所有的segment，很耗時預設會在後臺執行segment merge操作，在merge的時候，被標記為deleted的document也會被徹底物理刪除每次merge

LeetCode演算法題-Number of 1 Bits（Java實現）

這是悅樂書的第186次更新，第188篇原創 01 看題和準備今天介紹的是LeetCode演算法題中Easy級別的第45題（順位題號是191）。編寫一個帶無符號整數的函式，並返回它所具有的“1”位數。例如：輸入：11 輸出：3 說明：整數11具有二進位制表示000000000000000000000

CSS實現太極圖（1個div實現）

使用一個div實現太極圖的步驟如下： HTML部分： <body> <div class="box-taiji"> </div> </body> 第一步，結合border實現左黑右白的正方形，加上圓角、陰影。程式碼如下;

只含有0，1，2的陣列的排序（java實現）

要求對只含有0，1，2的陣列進行排序，時間複雜度為O(n)，空間複雜度為1 秋招筆試題 /*思路： * 設定三個標記指標:iZero, iOne, iTwo * 令iZero從前往後遍歷,指向第一個

spark入門三（RDD基本運算）

1. RDD基本操作 val rdd1 = sc.parallelize(List(1,2,3,4,4)) 輸出結果：rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at paral

專為新手入門二叉樹（C實現）

本篇部落格主要涉及二叉樹的基本操作，建立，三種遍歷，求節點等（C寫法）。二叉樹作為資料結構的難點，想必讓很多人望而生畏，各種複雜的程式碼和演算法實在讓人頭大，博主也是近期剛接觸二叉樹，對於二叉樹的探究也不是很深刻，所以有紕漏還請體諒。 1.首先了解下二叉樹二

編寫一個程式，獲取10個1至20的隨機數，要求隨機數不能重複（HashSet實現）

廢話不多說，直接上程式碼。 package cn.ketang.lianxi02; import java.util.HashSet; import java.util.Random; /** *

WebSocket Java Programming入門-1（annotated）

1、前言一直沒有怎麼做過前端的東西，但是最近的專案中，前端人員奇缺，公司又不安排新的人員進入，所以我這個後臺開發人員只能拉過來坐前端了，前段的東西感覺一大堆，CSS，js自不必說，HTML生態圈就有很多的技術要去學習，好吧，那就一個一個的學習整理啦，先來說說最近這個專案的

Spark入門1（WordCount實現）

相關推薦