使用spark讀取es中的資料並進行資料清洗，使用fp-growth演算法進行加工

阿新 • • 發佈：2019-02-15

最近學了spark，用fg-growth演算法進行資料的關聯排序

object HelloPFg {
  def main(args: Array[String]) {

    val conf = new SparkConf().setAppName("Spark MLlib Exercise:K-Means Clustering")
    conf.set("es.index.auto.create", "true")
    conf.set("es.nodes", "192.168.100.100")

    val sc = new SparkContext(conf)

    var sqlsc = new SQLContext(sc)
    /**
      * 讀取es中的資料，logstash是es中的索引名稱，如果需要讀取多個索引，則使用逗號將索引隔開即可
      * val esLogs = sc.esRDD("logstash-2016.04.04,logstash-2016.04.05").values
      * 如果需要讀取不同的index中的不同的type中的資料，則分別讀取，然後使用union將多個rdd合併成一個rdd即可
    val esLogs = sc.esRDD("logstash-2016.04.04/spark").values
    val esLogs1 = sc.esRDD("logstash-2016.04.05/docs").values
    val test=esLogs.union(esLogs1)
      * */
    val esLogs = sc.esRDD("logstash-2016.04.04").values//使用values取出資料中的values，本來取出的資料為Map

    val line_num = esLogs.count()
    //對資料進行過濾，只保留防火牆的資料
    val waf1 = esLogs.filter(_.contains("waf_logtype"))
    System.out.println("waf1:" + waf1.first())
    System.out.println("waf1:srcip:" + waf1.first().get("srcip"))
    //去掉含有message的資料
    var waf2 = waf1.map(m => m.-("message"))
    System.out.println("waf2...............waf2........."+waf2.first())
    //組裝fp-growth需要的資料型別，fpg演算法需要RDD型別的Array[String]型別
    var waf3 = waf2.map(m => Array(m.get("waf_logtype").toString(),
      m.get("url").toString().substring(0, dns(m.get("url").toString())+1),//對url進行過濾，去掉第一個反斜槓後面的部分
      m.get("srcip").toString(), m.get("method").toString()))
    
    println("...............waf3:........."+waf3.first())
    System.out.println("waf3:"+waf3.first().mkString(","))
    //設定最小支援度，以及分片的數量，分片的數量就是計算的結果會生成檔案的個數
    val fpg = new FPGrowth()
      .setMinSupport(0.2)
      .setNumPartitions(10)
    val model = fpg.run(waf3)

    model.freqItemsets.collect().foreach { itemset =>
      println(itemset.items.mkString("[", ",", "]") + ", " + itemset.freq)
    }

    val minConfidence = 0.8
    model.generateAssociationRules(minConfidence).collect().foreach { rule =>
      println(
        rule.antecedent.mkString("[", ",", "]")
          + " => " + rule.consequent.mkString("[", ",", "]")
          + ", " + rule.confidence)
    }
  }
  private def dns(line: String): Int = {
    if (line.indexOf('/') > 0) line.indexOf('/')
    else 0
  }
}

使用spark讀取es中的資料並進行資料清洗，使用fp-growth演算法進行加工

最近學了spark，用fg-growth演算法進行資料的關聯排序 object HelloPFg { def main(args: Array[String]) { val conf = new SparkConf().setAppName("Spark M

《機器學習實戰》使用Apriori演算法和FP-growth演算法進行關聯分析（Python版）

===================================================================== 《機器學習實戰》系列部落格是博主閱讀《機器學

spark讀取es資料

spark-2.0.2 scala-2.11.8  <dependency> <groupId>org.apa

Flume讀取日誌資料並寫入到Kafka，ConsoleConsumer進行實時消費

最近大資料學習使用了Flume、Kafka等，今天就實現一下Flume實時讀取日誌資料並寫入到Kafka中，同時，讓Kafka的ConsoleConsumer對日誌資料進行消費。 1、Flume F

spark 讀取elasticsearch中資料不完整問題

使用spark讀取elasticsearch中的資料，使用es提供的api來進行， sc.esRDD("logstash").values 官方網站也是這種方式讀取資料的，但是我測試的時候有時候會出現讀取資料不完整的情況，比如本來讀取的資料是這樣的 Map(msg ->

Unity讀取Text中的每一行資料存放到字典中

//宣告一個存放的字典 public Dictionary<string, string> DressUpNameAndIntroduce = new Dictionary<string, string>(); private void Awake()

Python應用舉例：讀取文字資料並轉為資料框

【需求】很多個使用者同時對n個題進行作答並得到結果，資料格式如下：現在想通過一系列轉換得到如下形式的資料框：【Python實現】操作之前，現將相關的包匯入，如下： import numpy as np from pandas import DataFram

Python3.6實現scrapy框架爬取資料並將資料插入MySQL與存入文件中

# -*- coding: utf-8 -*- # Define your item pipelines here # # Don't forget to add your pipeline to the ITEM_PIPELINES setting # See: http://doc.scrapy.org

讀取檔案中的第一行資料

實現效果：　　知識運用：　　StreamReader類的ReadLine方法　　　　//從當前流中讀取一行字元並將資料作為字串返回　　public override string ReadLine () 實現程式碼： private void button1_Clic

flutter讀取專案中的json檔案資料

前言網上有很多讀取的,但對於小白的我來說(剛接觸flutter一週,dart完全不懂),從專案中讀取 xxx.json檔案,並將檔案中的json內容轉換為string物件是困難的,話不多說直接上程式碼環境準備由於我是在自己專案中實現的,有環境,及依賴需要引入,就全部都貼出來

使用XML儲存資料並對資料進行操作

XML檔案（XMLFile）：<Stus> <Stu> <SID>1</SID> <SName>野原美伢</SName> <SSex>女</SSex>

python讀取檔案中的一行有效資料

資料格式： t1.txt 1 1123 1y211 121&*dd99 0000 01 23 0111 993 d 984 程式碼： total =

qt 寫入和讀取 mysql中的blob型別資料

寫入：若寫入blob型別資料，組織如下sql語句即可： update tableName set blobKey =HEX('abcdefg'); 表示是以16進位制的形式儲存到mysql中。讀取：以正常的select語句讀取即可： select bl

框架：SpringBoot 資料庫：MySql 前端：JS 後端讀取資料庫中時間並返回到前端是時間戳

經歷： SSM框架下實體類中有Date型別屬性，將資料返回到前端，結果顯示的是時間戳解決方案是在Date型別屬性上加上：JsonFormat（pattern='yyyy-MM-dd HH:mm:ss',timezone=GMT+8）即可解決後來在SpringBoot框架下又遇到這類問題，再去使用JsonF

python UI自動化測試專案記錄（二）請求介面資料並提取資料

首先獲取預期結果-介面響應資料，分成兩步： 1 獲取資料來源介面資料 2 提取後續頁面對比中要用到的資料並且為了便於後續呼叫，將介面相關的都封裝到ProjectApi類中。隱去敏感資訊後的原始碼如下： 1 獲取資料來源介面資料 # coding:utf-8 import

Unity3D 使用Socket處理資料並將資料在UGUI、NGUI上顯示出來

Unity3d 不支援C#的執行緒直接呼叫Unity3D 主執行緒才能實現的功能。例如：給UGUI text 賦值、改變Color值等。怎樣解決這個問題呢？使用一個Loom指令碼。按照慣例貼上程式碼。首先Loom指令碼using UnityEngine;using Syste

修改qt QTableView裡的modal資料並更新資料

1.當表格有某行被選擇時，獲取所選行的QModelIndex並呼叫setData函式 int row = ui.tv_searchList->currentIndex().row(); /

spark讀取elasticsearch中陣列型別的欄位

之前做的一個專案需要用sparksql讀取elasticsearch的資料，當讀取的型別中包含陣列時報錯. 讀取方式大概是 val options = Map("pushdown" -> "true", "strict" -> "false", "

C#讀取含中文字符的數據，失敗原因，和解決辦法

address p s tps home 拓撲時代 res 筆試題 baidu C++內存檢測如何理解設備樹中address-cells和size-cells 補《歡聚時代2017校招筆試題目（PHP工程師類）---錯題解析》 QGC地圖上任務項銜擄懶蹤恃梢刻

python 讀取資料庫中的BLOB型別欄位，並存儲檔案到本地

import os import cx_Oracle os.environ['NLS_LANG'] = 'SIMPLIFIED CHINESE_CHINA.UTF8' db_orcl = cx_Oracle.connect("使用者/[email protected]/orcl"

使用spark讀取es中的資料並進行資料清洗，使用fp-growth演算法進行加工

相關推薦