Spark 演算法練習兩則

阿新 • • 發佈：2019-01-01

練習一：求最大最小值

在檔案中獲取資料求浮點數和整數的最大值和最小值

1,2.33,4,1.55,2.56,
55,55,55,23.77,1.88987,0.3324,
22.567,5.5567,7.8895,33

import org.apache.spark.{SparkConf, SparkContext}

object demo01 {
  def main(args: Array[String]): Unit = {
    println("求最大最小值")
    val conf=new SparkConf().setMaster("local").setAppName("minmax")
    val sc = new SparkContext(conf)
    val data= sc.textFile("D:\\resource\\minmax.txt",1)
    var minn=Double.MaxValue
    var maxn=Double.MinValue
    val datap=data.flatMap{x=>x.split("\r\n").mkString("").split(",")}
    var i=1
    val countt=datap.count()
    for (x<-datap){
      val n=x.toDouble
      if(n>maxn)maxn=n
      if(n<minn)minn=n
      if(i==countt)println("最大值："+maxn+"， 最小值："+minn)
      i=i+1
    }
}

練習二：求爺孫關係

janet winnie
winnie poul
sam dida
helen janet
helen jack
jack salon
salon rose
rose tom
jack nicole
sam flitter
janet sam
sam sisi

def ancesor(sc:SparkContext)= {
    val data = sc.textFile("D:\\resource\\ancesor.txt", 2)
    val cps = data.map { x => (x.split(" ")(0), x.split(" ")(1)) }
    val cpss=cps.collectAsMap() //啟用RDD
    val to=cps.foreach{cp1=>
      val list=List("")
      cpss.foreach{cp2=>
        if(cp2._1.equals(cp1._2)) {
          println("祖輩："+cp1._1+"，孫輩："+cp2._2)
        }
      }
    }
  }

練習三：排序

對csv檔案進行排序

name,score
helen,40
tom,50
mary,69
ben,60
sasa,70
marier,76
dida,78

object demo01 {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("sort1").setMaster("local")
    val sc = new SparkContext(conf)
    val sqc = new SQLContext(sc)
    //csv檔案的第一行為列資訊，設定header=true可以讀取列資訊
    val data2 = sqc.read.option("header", "true").csv("d:\\demo.csv").toDF()
    data2.registerTempTable("tb_score")
    sqc.sql("select * from tb_score order by score desc").show()
  }
}

對普通檔案進行排序

hello 2
say 4
dida 5
discuss 6
subway 10

object demo01 {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("sort2").setMaster("local")
    val sc = new SparkContext(conf)
    val sqc = new SQLContext(sc)
    val data=sc.textFile("d:\\demo2.txt").map(x=>(x.split(" ")(0),x.split(" ")(1).toInt))
    //方法一，直接用內建函式，排序得出降序排序
    sqc.createDataFrame(data).toDF("name","num").orderBy("num").show()
    
    //方法二，轉變成臨時table進行sql排序，可指定升降序
    sqc.createDataFrame(data).toDF("name","num").registerTempTable("tb_s")
    sqc.sql("select * from tb_s order by num").show()
  }
}

對json檔案進行排序

{“id”:1, “name”:“leo”, “age”:18}
{“id”:2, “name”:“jack”, “age”:19}
{“id”:3, “name”:“marry”, “age”:17}

object demo01 {
  def main(args: Array[String]): Unit = {
    val conf=new SparkConf().setMaster("local").setAppName("json")
    val sc=new SparkContext(conf)
    val sqc=new SQLContext(sc)
    val jdata=sqc.read.json("d:/demo3.json").createOrReplaceTempView("demo3")
    sqc.sql("select id,name,age from demo3 order by id").show()
  }
}

練習四：二次排序

hello 2 23
baby 2 44
hello 1 22
hello 3 55
nice 2 58
kitty 3 66
apple 1 44

使用SparkSQL

object demo01 {
  def main(args: Array[String]): Unit = {
    val conf=new SparkConf().setMaster("local").setAppName("second")
    val sc=new SparkContext(conf)
    val sqc=new SQLContext(sc)

    val data=sc.textFile("d:/demo4.txt")
      .map{x=>(x.split(" ")(0),x.split(" ")(1),x.split(" ")(2))}
    sqc.createDataFrame(data).toDF("name","class","score")
      .createOrReplaceTempView("demo4")
    sqc.sql("select * from demo4 as t order by class,score desc").show()

  }
}

使用Spark

//用於排序的類，注意第一行的寫法
class record(val clss:Int,val score:Int) extends Ordered[record] with Serializable {
  def compare(other: record): Int = {
    val comp = clss.compareTo(other.clss)
    if (comp == 0) {
      other.score.compareTo(score)
    } else {
      comp
    }
  }
}


//用於處理的Spark
object demo01 {
  def main(args: Array[String]): Unit = {
    val conf=new SparkConf().setMaster("local").setAppName("second")
    val sc=new SparkContext(conf)

    val data=sc.textFile("d:/demo4.txt")
      .map{x=>
        val ele=x.split(" ")
        (new record(ele(1).toInt,ele(2).toInt),x)
      }
    val result=data.sortByKey(true).map(x=>x._2.replace(" ",","))

    result.foreach(println)
}
}

練習五：倒排索引

搜尋引擎的索引法則

object demo01 {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local").setAppName("second")
    val sc = new SparkContext(conf)

    sc.wholeTextFiles("D:\\resource\\daopai", 2).flatMap{ x =>
      val file = x._1.split("/").last.dropRight(4)
      x._2.split("\r\n").mkString(" ").split(" ")
        .map { x => (x, file) }
    }.map(x=>(x._1,x._2)).groupByKey()
      .map{x=>(x._1,x._2.toList.distinct.mkString(","))}
      .foreach(println)
  }
}

練習六：??

Spark 演算法練習兩則

練習一：求最大最小值在檔案中獲取資料求浮點數和整數的最大值和最小值 1,2.33,4,1.55,2.56, 55,55,55,23.77,1.88987,0.3324, 22.567,5.5567,7.8895,33 import org.apache.spark

演算法練習05 判斷兩個矩形是否重疊

題目（2018-11-20）用一個物件的資料來表示一個矩形的位置和大小： { x: 100, y: 100, width: 150, height: 250 } 它表示一個寬為150高為250的矩形在頁面上的(100, 100)的位置。請你完成一個函

Spark專案練習（計算使用者停留時間最長的兩個小區）

專案說明：附件為要計算資料的demo。點選開啟連結其中bs_log資料夾資料格式為（手機號，時間戳，基站ID，連線狀態（“1”為連線，“0”為斷開）） lac_info.txt 檔案資料格式為（基站ID，經度，緯度，訊號輻射型別）程式思路: 1, 先根據"手機號,基站I

演算法練習：兩指標之有序陣列去重

問題描述給出一個有序陣列，就地移除重複元素，保持每個元素只出現一次，並返回新陣列的長度。問題分析這個比較簡單，直接使用兩個指標，一個在前，一個在後，掃描一遍陣列即可。時間複雜度為O(n^2)。

演算法練習之兩數之和

上週五（1.4號）看到群裡有再說力扣(https://leetcode-cn.com/)的演算法題，自己就去搜索了下，發現是練習演算法、資料庫、shell的平臺，很不錯。週五下午在測試的間隙，自己做了一道簡單的演算法題，剛好把這兩天覆習的python的基礎知識複習了。演

練習題︱影象分割與識別——UNet網路練習案例（兩則）

U-Net是Kaggle比賽非常青睞的模型，簡單、高效、易懂，容易定製，可以從相對較小的訓練集中學習。來看幾個變形：（1）Supervise.ly 公司。在用 Faster-RCNN（基於 NasNet）定位 + UNet-like 架構的分

演算法練習：兩數之和

題目：給定一個整型陣列，是否能找出兩個數使其和為指定的某個值？注：整型陣列中不存在相同的數。一、解題方法 1、暴力破解法(時間複雜度O(n^2) ) 這是最容易想到的一種方法，即使用兩層迴圈，從數組裡取出一個數，然後在此數之後部分找出另外一個數，計算兩數之和，判斷是否等於

【Java】【演算法練習】輸入一個正整數陣列，把數組裡所有數字拼接起來排成一個數，列印能拼接出的所有數字中最小的一個。例如輸入陣列{3，32，321}，則打印出這三個數字能排成的最小數字為321323。

題目描述：輸入一個正整數陣列，把數組裡所有數字拼接起來排成一個數，列印能拼接出的所有數字中最小的一個。例如輸入陣列 {3，32，321}，則打印出這三個數字能排成的最小數字為321323。解題思路：解題思路：比較兩個字串s1 S2的

IO練習兩個文件夾進行copy（含子目錄）

nts pan tor 拷貝 style copy str1 子目錄 red 1 //從鍵盤接收兩個文件夾路徑,把其中一個文件夾中(包含內容)拷貝到另一個文件夾中 2 @Test 3 public void t6(){ 4 //1)

適配 iOS 8 時遇到的問題兩則：遠程推送和 Unwind Segue

沒有 code cat ios 6 相同 padding nic else bre 原文：http://imtx.me/archives/1910.html 昨天我在微博上吐槽：iOS 8 / Xcode 6 真是史上對開發人員最糟糕的版本號了。收到非常多朋友表

簡單算法系列：快速算法/冒泡算法兩則

mil 小例子 turn int 設計 pan 問題體會理解工作較忙，沒辦法抽出時間專心攻克《Go語言編程》，隨著了解的更多，越發體會出這本書中小例子的精巧。掌握這些小例子，就可以完成Go基礎的全面掌握最近抽出時間專心敲這些例子。但是發現一些問題，在設計上，許大大

Python練習---正則表達式

sea 開始 -1 sdf 郵箱 asdf time com dal 1、匹配一段文本中的每行的郵箱 y=‘[email protected]/* */@[email protected]/* */@adfcom‘ import re ret=r

Spark實戰練習01--XML數據處理

提取 pan account 實戰練習 count park mes 文件 acc 一、要求將XML中的數據提取出來，並以account_number：model格式存儲 1、XML文件數據格式 <activations>　　<activation

【轉】Lindström–Gessel–Viennot lemma 應用兩則

alt src emma 就是 mage .org 技術分享 n-1 cnblogs 原博客：http://www.cnblogs.com/jszkc/p/7309468.html 對於一張無邊權的DAG圖，給定n個起點和對應的n個終點，這n條不相交路徑的方案數為 det(

python兩則99乘法表

乘法循環 end %d range 執行 pan 適用於嵌套循環分別應用while和for的嵌套循環，適用於初學的人看看 x = 1 while x <= 9: y = 1 while y <= x: print (y,‘

SQL技巧兩則：選擇一個表的字段插入另一個表，根據其它表的字段更新本表內容

name 一個表 res color 成了 from style 策略內容最近，在作django數據表遷移時用到的。因為在django中，我把本來一個字符型字段，更改成了外鍵，於是，哦喝~~~字符型字段相當於被刪除了，為了能導入這些字段的外鍵信息，於是出此下

C語言經典演算法（七）——遞迴實現階乘演算法的兩種方法

今後繼續整理演算法並寫出自己的理解和備註。 C++實現的：遞迴實現階乘演算法N! 1、遞迴實現n! <1> 題目描述:輸入n值，求解n的階乘 <2> 方法一:累乘法 <3> 方法二:遞迴法原始碼: 一、遞迴實現n! 1、累乘法 #

演算法練習week7--leetcode23

題目大意：給出若干已經排好序連結串列的頭節點指標，將它們合併成一個成序的連結串列，返回其頭結點指標。示例：給定連結串列：1->2->3 和 4->6->8，則應當返回連結串列 1->2->3->4->6->8的頭節點指標。解題思路

演算法練習week6--leetcode400

題目連結：https://leetcode.com/contest/5/problems/nth-digit/ 題目： Find the nth digit of the infinite integer sequence 1, 2, 3, 4, 5, 6, 7, 8, 9, 10,

演算法練習week5--leetcode684

一個無向圖是否存在環演算法1：我們知道對於環 1-2-3-4-1，每個節點的度都是2，基於此我們有如下演算法（這是類似於有向圖的拓撲排序）：求出圖中所有頂點的度刪除圖中所有度 <=1 的頂點以及與該頂點相關的邊，把與這些邊相關的頂點的度減一如果還有度<

Spark 演算法練習兩則

相關推薦