spark例子
1、Wordcount程式測試:進入spark-shell中
val text_file =sc.textFile("hdfs://hadoop1:8020/ai/README.txt")
val counts =text_file.flatMap(line=>line.split("")).map(word=>(word,1)).reduceByKey(_+_)
counts.saveAsTextFile("hdfs://hadoop1:8020/ai/wordcount") 注意:Wordcount為運算結果的目錄
Wordcount的簡寫方式:scala> valwordCount = rdd.flatMap(_.split(' ')).map((_,1)).reduceByKey(_+_)
counts.saveAsTextFile("hdfs://hadoop1:8020/ai/wordcount")
檢視結果:scala> wordCount.collect
求總行數:val rows =sc.textFile("/ai/README.txt").count
求所有單詞的總和Wordsum:val workSum = sc.textFile("hdfs://hadoop1:8020/ai/README.txt").map(_.size).reduce(_+_)
求每行的單詞數:val rowSum =sc.textFile("/ai/README.txt").map(_.size)
求每行單詞最多的數量:val rowSum =sc.textFile("/ai/README.txt").map(_.size).reduce((a,b) =>if(a>b) a else b)
排序後儲存到HDFS上:scala> val wordCount =sc.textFile("/ai/README.txt").flatMap(_.split('')).map((_,1)).reduceByKey(_+_).map(x => (x._2, x._1)).sortByKey(false).map(x=> (x._2, x._1)).saveAsTextFile("/ai/wordSorted")
對生成的小檔案合併到本地:hadoopfs -getmerge /ai/wordSorted /home/hadoop/wordCount.txt
執行結果如下:
Found 2 items
-rw-r--r-- 3 hadoopsupergroup 0 2015-05-11 20:55/ai/wordcount/_SUCCESS注意:此處為運算成功的標誌
-rw-r--r-- 3 hadoopsupergroup 1574 2015-05-11 20:55 /ai/wordcount/part-00000注意:此處為運算的結果
2、rdd操作:常用例子
1)查詢一行中單詞最多的個數:sc.textFile("/ai/README.md").map(_.split("").size).reduce((a,b) => if (a>b) a else b)
另一種寫法為匯入java函式:import java.lang.Math sc.textFile("/ai/README.md").map(_.split("").size).reduce((a, b) => Math.max(a,b))
2)計算HDFS上 /ai/README.txt檔案的行數:scala> val count = sc.textFile("/ai/README.txt").count 等價於val count = sc.textFile("hdfs:///ai/README.txt").count 和val count = sc.textFile("hdfs://hadoop1:8020/ai/README.txt").count
3)檢視包含hadoop的記錄:sc.textFile("/ai/README.txt").filter(_.contains("hadoop")).collect
相關推薦
spark 例子wordcount topk
分組 input MF 詞頻 RR reduce get 讀取數據 print spark 例子wordcount topk 例子描述: 【單詞計算wordcount 】 【詞頻排序topk】 單詞計算在代碼方便很簡單,基本大體就三個步驟 拆分字符串 以需要進行記數的單
spark例子整理
Spark Streaming是一個準實時流處理框架,處理響應時間一般以分鐘為單位,也就是說處理實時資料的延遲時間是秒級別的;Storm是一個實時流處理框架,處理響應是毫秒級的。所以在流框架選型方面要看具體業務場景。需要澄清的是現在很多人認為Spark Streaming流處理執行不穩定、資料丟失、事務性支援
邏輯迴歸原理及spark例子
例子中對K元邏輯迴歸沒有詳細推導,我自己推導了一下,過程也比較簡單。(太長時間不寫字,感覺已經不會拿筆了。。。) 過程如圖: 然後運行了一下spark自帶的LogisticRegressionWithLBFGSExample例子。 原始碼如下: import
spark例子
1、Wordcount程式測試:進入spark-shell中 val text_file =sc.textFile("hdfs://hadoop1:8020/ai/README.txt") val counts =text_file.flatMap(line=>lin
[Spark][Python]RDD flatMap 操作例子
line var 元素 bsp ini atd 執行函數 clas park RDD flatMap 操作例子: flatMap,對原RDD的每個元素(行)執行函數操作,然後把每行都“拍扁” [[email protected] ~]$
[Spark][python]以DataFrame方式打開Json文件的例子
文件的 kset schedule sin ade tasks nec session reat [Spark][python]以DataFrame方式打開Json文件的例子: [[email protected] ~]$ cat people.json{"na
[Spark][Hive]外部文件導入到Hive的例子
xtree rain limited load mapreduce custom apr cli and 外部文件導入到Hive的例子: [[email protected] ~]$ cd ~[[email protected] ~]$ pwd/hom
[Spark][Python]Spark 訪問 mysql , 生成 dataframe 的例子:
sca spec star manager started nsa domain /tmp form [Spark][Python]Spark 訪問 mysql , 生成 dataframe 的例子: mydf001=sqlContext.read.format("jd
[Spark][Python]spark 從 avro 文件獲取 Dataframe 的例子
imp oca block sql contex local put driver tput [Spark][Python]spark 從 avro 文件獲取 Dataframe 的例子 從如下地址獲取文件: https://github.com/databricks/
[Spark][Python]DataFrame中取出有限個記錄的例子
dep ins pytho rem json.js art hadoop fileinput taskset [Spark][Python]DataFrame中取出有限個記錄的例子: sqlContext = HiveContext(sc) peopleDF = sql
[Spark][Python]DataFrame select 操作例子
pytho partition rac executor logs part ner man add [Spark][Python]DataFrame中取出有限個記錄的例子 的 繼續 In [4]: peopleDF.select("age")Out[4]: Data
[Spark][Python]DataFrame where 操作例子
frame .sh data mit spark dia where () limit [Spark][Python]DataFrame中取出有限個記錄的例子 的 繼續 [15]: myDF=peopleDF.where("age>21") In [16]: my
[Spark][Python]Spark Join 小例子
ont nta text read null json corrupt led park [[email protected] ~]$ hdfs dfs -cat people.json {"name":"Alice","pcode":"94304"}{"nam
[Spark][Python]DataFrame的左右連接例子
pytho ont logs state codes name () class clas [Spark][Python]DataFrame的左右連接例子 $ hdfs dfs -cat people.json {"name":"Alice","pcode":
[Spark][Python][DataFrame][SQL]Spark對DataFrame直接執行SQL處理的例子
hdfs temp div python people data name where afr [Spark][Python][DataFrame][SQL]Spark對DataFrame直接執行SQL處理的例子 $cat people.json {"name":"
[Spark][Streaming]Spark讀取網絡輸入的例子
trac pair keep exception clas zookeeper 包含 air blog Spark讀取網絡輸入的例子: 參考如下的URL進行試驗 https://stackoverflow.com/questions/46739081/how-to-ge
Spark簡介安裝和簡單例子
可用 spa nbsp tgz class 高效 ota zookeep 進入 Spark簡介 Spark是一種快速、通用、可擴展的大數據分析引擎,目前,Spark生態系統已經發展成為一個包含多個子項目的集合,其中包含SparkSQL、Spark Streaming、Gra
spark執行例子eclipse maven打包jar
hadoop2 amp AC img 分享圖片 https 由於 all hot 首先在eclipse Java EE中新建一個Maven project具體選項如下 點擊Finish創建成功,接下來把默認的jdk1.5改成jdk1.8 然後編
IDEA編寫wordcount,讀取hdfs檔案,執行在Spark叢集例子
前期:已安裝好hadoop叢集和spark叢集,hadoop2.6.5,spark2.3.1,jdk1.8. scala2.1.0 第一步:在idea編寫scala程式,並且要打包(pom檔案的build標籤中配置好maven打包程式碼,可以定義主類也可以在提交的時候再定義){補充:可以在s
spark-streaming例子程式
開發spark-streaming從伺服器埠實時接收資料進行worldcount; 環境搭建 idea+maven 其pom檔案如下: <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http: