scala 實現wordcount
object ScalaWordCount { def main(args: Array[String]): Unit = { var lines = List("hello java hello scala", "hello tom", "today is good day hello scala", "day by day") //切分並壓平 val words = lines.flatMap(_.split(" ")) // 把每個單詞生成一個一個pair(key, 1) val tuples = words.map((_, 1)) //以key進行分組 第一個_代表元組,第二個_1 代表key(單詞) val grouped = tuples.groupBy(_._1) //統計value的長度 val sumed = grouped.mapValues(_.size) //排序 val sorted = sumed.toList.sortBy(_._2).reverse println(sorted) } }
相關推薦
scala 實現wordcount
object ScalaWordCount { def main(args: Array[String]): Unit = { var lines = List("hello java hello scala", "hello tom", "today is go
Akka實現WordCount(Scala)
post aggregate compiler lan www word you eof current Akka實現WordCount(Scala): 架構圖: 項目結構: pom.xml <project xmlns="http://m
Scala +Spark+Hadoop+Zookeeper+IDEA實現WordCount單詞計數(簡單例項)
IDEA+Scala +Spark實現wordCount單詞計數 一、新建一個Scala的object單例物件,修改pom檔案 (1)下面文章可以幫助參考安裝 IDEA 和 新建一個Scala程式。 (2)pom檔案 <?xml
Scala+Spark+Hadoop+IDEA實現WordCount單詞計數,上傳並執行任務(簡單例項-下)
Scala+Spark+Hadoop+IDEA上傳並執行任務 本文接續上一篇文章,已經在IDEA中執行Spark任務執行完畢,測試成功。 一、打包 1.1 將setMaster註釋掉 package day05 import
Spark:用Scala和Java實現WordCount
1 Spark assembly has been built with Hive, including Datanucleus jars on classpath 2 Using Spark's default log4j profile: org/apache/spark/log4j-def
python、scala、java分別實現在spark上實現WordCount
下面分別貼出python、scala、java版本的wordcount程式: python版: import logging from operator import add from pyspark import SparkContext logging.basicCo
scala函數式編程初體驗 ==> 用scala函數實現 WordCount
spa val nbsp emp groupby mapred string hadoop map //定義一個字符串集合 scala> val lines = List("hadoop,hive,spark,hue,mapreduce"," ","hadoop,h
Scala實現Mapreduce程序4-----數據去重
text tracker rtb () 輸出 pack eric 去重 ray 數據去重,key只輸出一次 scala實現:先groupByKey(),然後SortByKey(),然後輸出keys object Reduplicate { def main(args:
Hive 實現 wordcount
style nbsp logs 執行 txt hive ble text bsp 創建表: create table hive_wordcount(context string); load data local inpath ‘/home/hadoop/files/
Scala實現:已知三點坐標,求最短距離(如果在垂足不在線段內,最短距離為到其中一點的直線距離)
線段 在線 obj creat sqrt reat 最短距離 最小 space /** * 已知三點坐標,求其中一點到另兩點的垂線距離 * (如果在垂足不在線段內,最短距離為到其中一點的直線距離) * Created by wzq on 17-11-2. */obj
scala實現快速排序
col nbsp pri style 其中 分數 分割 序列 它的 // 快速排序:它的基本思想是:通過一趟排序將要排序的數據分割成獨立的兩部分,其中一部分的所有數據都比另外一部分的所有數據都要小, // 然後再按此方法對這兩部分數據分別進行快速排序,整個
【總結】使用Scala實現Json與Case Class相互轉換
json case classimport org.json4s.native.Serialization.{read, write} object Json2CaseClass extends App { implicit val formats = org.json4s.DefaultFormats
Flink+kafka實現Wordcount實時計算
lis AS -c 安裝包 pos localhost 行動 private 配置信息 1. Flink Flink介紹: Flink 是一個針對流數據和批數據的分布式處理引擎。它主要是由 Java 代碼實現。目前主要還是依靠開源社區的貢獻而發展。對 Flink 而言,其所
在Hadoop上用Python實現WordCount
tdi fff tool 目錄 獲取 style 要求 ren pan 在hadoop上用Python實現WordCount 一、簡單說明 本例中我們用Python寫一個簡單的運行在Hadoop上的MapReduce程序,即WordCount(讀取文本文件並統計單詞的詞
大數據學習——MapReduce配置及java代碼實現wordcount算法
鍵值 example nds clas spl key lru 這樣的 java_home ---恢復內容開始--- 配置MapReduce需要在之前配置的基礎上配置兩個xml文件一個是yarn-site.xml一個是mapred-site.xml,在之前配置的hadoop
Java編程MapReduce實現WordCount
submit option next cte line 出現 ask text ide Java編程MapReduce實現WordCount 1.編寫Mapper package net.toocruel.yarn.mapreduce.wordcount; import
軟工作業:實現WordCount命令行程序(更新中)
合計 需要 代碼規範 時間 ble ali 編碼 rem class 軟工作業:實現WordCount命令行程序(更新中) gayhub地址 PSP2.1 Personal Software Process Stages 預估耗時(分鐘) 實際耗時(分鐘) P
軟件工程:java實現wordcount基本功能
param process mar 一個 match sig str 需求 war github鏈接:https://github.com/Nancy0611/wc 一:項目相關要求 該項目能統計文本文件的字符數、單詞數和行數。這個項目要求寫一個命令行程序,模仿已有wc
python實現WordCount(第三次作業)
0x00 註明 合作者:201631062315 201631062310 程式碼地址:https://gitee.com/c1e4r/word-count2 作業地址:https://edu.cnblogs.com/campus/xnsy/2018softwaretest2398/home
使用SparkSQL2.x的SQL方式實現WordCount
程式碼裡面有很詳細的說明 程式碼實現: package cn.ysjh0014.SparkSql import org.apache.spark.sql.{DataFrame, Dataset, SparkSession} object SparkSQLWordCount { de