1. 程式人生 > >spark例子

spark例子

1、Wordcount程式測試:進入spark-shell中

val text_file =sc.textFile("hdfs://hadoop1:8020/ai/README.txt")

val counts =text_file.flatMap(line=>line.split("")).map(word=>(word,1)).reduceByKey(_+_)

counts.saveAsTextFile("hdfs://hadoop1:8020/ai/wordcount")       注意:Wordcount為運算結果的目錄

Wordcount的簡寫方式:scala> valwordCount = rdd.flatMap(_.split(' ')).map((_,1)).reduceByKey(_+_)

counts.saveAsTextFile("hdfs://hadoop1:8020/ai/wordcount") 

檢視結果:scala> wordCount.collect

求總行數:val rows =sc.textFile("/ai/README.txt").count

求所有單詞的總和Wordsum:val workSum = sc.textFile("hdfs://hadoop1:8020/ai/README.txt").map(_.size).reduce(_+_)

求每行的單詞數:val rowSum =sc.textFile("/ai/README.txt").map(_.size)

求每行單詞最多的數量:val rowSum =sc.textFile("/ai/README.txt").map(_.size).reduce((a,b) =>if(a>b) a else b)

排序後儲存到HDFS上:scala> val wordCount =sc.textFile("/ai/README.txt").flatMap(_.split('')).map((_,1)).reduceByKey(_+_).map(x => (x._2, x._1)).sortByKey(false).map(x=> (x._2, x._1)).saveAsTextFile("/ai/wordSorted")

對生成的小檔案合併到本地:hadoopfs -getmerge /ai/wordSorted  /home/hadoop/wordCount.txt

執行結果如下:

[[email protected]

~]$hadoop fs -ls /ai/wordcount

Found 2 items

-rw-r--r--   3 hadoopsupergroup          0 2015-05-11 20:55/ai/wordcount/_SUCCESS注意:此處為運算成功的標誌

-rw-r--r--   3 hadoopsupergroup       1574 2015-05-11 20:55 /ai/wordcount/part-00000注意:此處為運算的結果

2、rdd操作:常用例子

1)查詢一行中單詞最多的個數:sc.textFile("/ai/README.md").map(_.split("").size).reduce((a,b) => if (a>b) a else b)

       另一種寫法為匯入java函式:import java.lang.Math      sc.textFile("/ai/README.md").map(_.split("").size).reduce((a, b) => Math.max(a,b))

2)計算HDFS上 /ai/README.txt檔案的行數:scala> val count = sc.textFile("/ai/README.txt").count  等價於val count = sc.textFile("hdfs:///ai/README.txt").count 和val count = sc.textFile("hdfs://hadoop1:8020/ai/README.txt").count

3)檢視包含hadoop的記錄:sc.textFile("/ai/README.txt").filter(_.contains("hadoop")).collect

相關推薦

spark 例子wordcount topk

分組 input MF 詞頻 RR reduce get 讀取數據 print spark 例子wordcount topk 例子描述: 【單詞計算wordcount 】 【詞頻排序topk】 單詞計算在代碼方便很簡單,基本大體就三個步驟 拆分字符串 以需要進行記數的單

spark例子整理

Spark Streaming是一個準實時流處理框架,處理響應時間一般以分鐘為單位,也就是說處理實時資料的延遲時間是秒級別的;Storm是一個實時流處理框架,處理響應是毫秒級的。所以在流框架選型方面要看具體業務場景。需要澄清的是現在很多人認為Spark Streaming流處理執行不穩定、資料丟失、事務性支援

邏輯迴歸原理及spark例子

例子中對K元邏輯迴歸沒有詳細推導,我自己推導了一下,過程也比較簡單。(太長時間不寫字,感覺已經不會拿筆了。。。) 過程如圖: 然後運行了一下spark自帶的LogisticRegressionWithLBFGSExample例子。 原始碼如下: import

spark例子

1、Wordcount程式測試:進入spark-shell中 val text_file =sc.textFile("hdfs://hadoop1:8020/ai/README.txt") val counts =text_file.flatMap(line=>lin

[Spark][Python]RDD flatMap 操作例子

line var 元素 bsp ini atd 執行函數 clas park RDD flatMap 操作例子: flatMap,對原RDD的每個元素(行)執行函數操作,然後把每行都“拍扁” [[email protected] ~]$

[Spark][python]以DataFrame方式打開Json文件的例子

文件的 kset schedule sin ade tasks nec session reat [Spark][python]以DataFrame方式打開Json文件的例子: [[email protected] ~]$ cat people.json{"na

[Spark][Hive]外部文件導入到Hive的例子

xtree rain limited load mapreduce custom apr cli and 外部文件導入到Hive的例子: [[email protected] ~]$ cd ~[[email protected] ~]$ pwd/hom

[Spark][Python]Spark 訪問 mysql , 生成 dataframe 的例子

sca spec star manager started nsa domain /tmp form [Spark][Python]Spark 訪問 mysql , 生成 dataframe 的例子: mydf001=sqlContext.read.format("jd

[Spark][Python]spark 從 avro 文件獲取 Dataframe 的例子

imp oca block sql contex local put driver tput [Spark][Python]spark 從 avro 文件獲取 Dataframe 的例子 從如下地址獲取文件: https://github.com/databricks/

[Spark][Python]DataFrame中取出有限個記錄的例子

dep ins pytho rem json.js art hadoop fileinput taskset [Spark][Python]DataFrame中取出有限個記錄的例子: sqlContext = HiveContext(sc) peopleDF = sql

[Spark][Python]DataFrame select 操作例子

pytho partition rac executor logs part ner man add [Spark][Python]DataFrame中取出有限個記錄的例子 的 繼續 In [4]: peopleDF.select("age")Out[4]: Data

[Spark][Python]DataFrame where 操作例子

frame .sh data mit spark dia where () limit [Spark][Python]DataFrame中取出有限個記錄的例子 的 繼續 [15]: myDF=peopleDF.where("age>21") In [16]: my

[Spark][Python]Spark Join 小例子

ont nta text read null json corrupt led park [[email protected] ~]$ hdfs dfs -cat people.json {"name":"Alice","pcode":"94304"}{"nam

[Spark][Python]DataFrame的左右連接例子

pytho ont logs state codes name () class clas [Spark][Python]DataFrame的左右連接例子 $ hdfs dfs -cat people.json {"name":"Alice","pcode":

[Spark][Python][DataFrame][SQL]Spark對DataFrame直接執行SQL處理的例子

hdfs temp div python people data name where afr [Spark][Python][DataFrame][SQL]Spark對DataFrame直接執行SQL處理的例子 $cat people.json {"name":"

[Spark][Streaming]Spark讀取網絡輸入的例子

trac pair keep exception clas zookeeper 包含 air blog Spark讀取網絡輸入的例子: 參考如下的URL進行試驗 https://stackoverflow.com/questions/46739081/how-to-ge

Spark簡介安裝和簡單例子

可用 spa nbsp tgz class 高效 ota zookeep 進入 Spark簡介 Spark是一種快速、通用、可擴展的大數據分析引擎,目前,Spark生態系統已經發展成為一個包含多個子項目的集合,其中包含SparkSQL、Spark Streaming、Gra

spark執行例子eclipse maven打包jar

hadoop2 amp AC img 分享圖片 https 由於 all hot 首先在eclipse Java EE中新建一個Maven project具體選項如下 點擊Finish創建成功,接下來把默認的jdk1.5改成jdk1.8 然後編

IDEA編寫wordcount,讀取hdfs檔案,執行在Spark叢集例子

前期:已安裝好hadoop叢集和spark叢集,hadoop2.6.5,spark2.3.1,jdk1.8. scala2.1.0 第一步:在idea編寫scala程式,並且要打包(pom檔案的build標籤中配置好maven打包程式碼,可以定義主類也可以在提交的時候再定義){補充:可以在s

spark-streaming例子程式

開發spark-streaming從伺服器埠實時接收資料進行worldcount; 環境搭建 idea+maven 其pom檔案如下: <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http: