spark Graphx 之 Connected Components

阿新 • • 發佈：2020-10-12

一、Connected Components演算法

Connected Components即連通體演算法用id標註圖中每個連通體，將連通體中序號最小的頂點的id作為連通體的id。如果在圖G中，任意2個頂點之間都存在路徑，那麼稱G為連通圖，否則稱該圖為非連通圖，則其中的極大連通子圖稱為連通體，如下圖所示，該圖中有兩個連通體：

二、示例

followers.txt （起點id,終點id）

users.txt （id，first name，full name）

1,BarackObama,Barack Obama
2,ladygaga,Goddess of Love
 
3,jeresig,John Resig
4,justinbieber,Justin Bieber
6,matei_zaharia,Matei Zaharia
7,odersky,Martin Odersky
8,anonsys

import org.apache.spark.graphx.{Graph, GraphLoader, VertexId, VertexRDD}
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object Connected_Components {
  def main(args: Array[String]): Unit  
= {
    val conf: SparkConf = new SparkConf().setAppName(this.getClass.getSimpleName).setMaster("local")
    val sc: SparkContext = new SparkContext(conf)
    //讀取followers.txt檔案建立圖
    val graph: Graph[Int, Int] = GraphLoader.edgeListFile(sc,"src/main/resources/connected/followers.txt")
    //計算連通體
    val components: Graph[VertexId, Int] = graph.connectedComponents()
    val vertices: VertexRDD[VertexId]  
= components.vertices
    /**
     * vertices：
     * (4,1)
     * (1,1)
     * (6,3)
     * (3,3)
     * (7,3)
     * (2,1)
     * 是一個tuple型別，key分別為所有的頂點id，value為key所在的連通體id(連通體中頂點id最小值)
     */
    //讀取users.txt檔案轉化為(key,value)形式
    val users: RDD[(VertexId, String)] = sc.textFile("src/main/resources/connected/users.txt").map(line => {
      val fields: Array[String] = line.split(",")
      (fields(0).toLong, fields(1))
    })
    /**
     * users:
     * (1,BarackObama)
     * (2,ladygaga)
     * (3,jeresig)
     * (4,justinbieber)
     * (6,matei_zaharia)
     * (7,odersky)
     * (8,anonsys)
     */
    users.join(vertices).map{
      case(id,(username,vertices))=>(vertices,username)
    }.groupByKey().map(t=>{
      t._1+"->"+t._2.mkString(",")
    }).foreach(println(_))
    /**
     * 得到結果為：
     * 1->justinbieber,BarackObama,ladygaga
     * 3->matei_zaharia,jeresig,odersky
     */
  }
}

最終計算得到這個關係網路有兩個社群。

spark Graphx 之 Connected Components

一、Connected Components演算法 Connected Components即連通體演算法用id標註圖中每個連通體，將連通體中序號最小的頂點的id作為連通體的id。如果在圖G中，任意2個頂點之間都存在路徑，那麼稱G為連通圖，否則稱該圖

spark Graphx 之 PageRank

PageRank（PR）演算法用於評估網頁連結的質量和數量，以確定該網頁的重要性和權威性的相對分數，範圍為0到10

spark Graphx 之 Pregel

Pregel是Google提出的用於大規模分散式圖計算框架圖遍歷（BFS）單源最短路徑（SSSP）

spark Graphx入門之 IDEA 操作

https://www.bookstack.cn/read/spark-graphx-source-analysis/vertex-edge-triple.md 一、基本操作 import org.apache.spark.graphx.{Edge, Graph}

Spark 系列（八）—— Spark SQL 之 DataFrame 和 Dataset

一、Spark SQL簡介 Spark SQL 是 Spark 中的一個子模組，主要用於操作結構化資料。它具有以下特點：

Spark 系列（九）—— Spark SQL 之 Structured API

一、建立DataFrame和Dataset 1.1 建立DataFrame Spark 中所有功能的入口點是 SparkSession，可以使用 SparkSession.builder() 建立。建立後應用程式就可以從現有 RDD，Hive 表或 Spark 資料來源建立 DataFrame。示例

題解 CF920E 【Connected Components?】

\\(\\Large\\texttt{CF920E}\\) \\(\\small\\texttt{In my blog}\\) 思路：並查集、暴力思路和大家都差不多，但是想給一個細緻一點的證明。

Spark-GraphX的PageRank演算法----熱度排名的例項程式碼

一：PageRank模型：每個網頁為一個點 A到B的連結抽象為一條有向邊整張網頁連結抽象成一份有向圖

Spark GraphX圖計算快速入門

一.概述 GraphX是Spark中用於圖形和圖形平行計算的新元件。在較高的層次上，GraphX通過引入新的Graph抽象來擴充套件SparkRDD：一個有向多重圖，其屬性附加到每個頂點和邊上。為了支援圖計算，GraphX公開了一組基本的

[CF920E] Connected Components? - 思維,並查集,STL

Description 給出一個 \\(n\\) 個點，\\(\\frac{n(n-1)}{2}-m\\) 的無向圖，以補圖的形式輸入，問圖中有多少連通分量以及每個連通分量有多少點。

Spark ML 之基於協同過濾的召回演算法

一、歐幾里得相似度理論參考：https://blog.csdn.net/qq_37142346/article/details/80455266 二、程式碼實現

Spark ML 之推薦演算法專案（下）

一、整體思路二、程式碼分析 1、合併資料。使用者見過的商品，根據使用者行為，區分喜歡0-不喜歡1；使用者沒見過的商品，標記為2

Spark ML 之推薦演算法專案（上）

一、整體流程二、具體召回流程三、程式碼實現 0、過濾已下架的/成人用品/菸酒等

Spark ML 之 LR邏輯迴歸實現排序

一、理論二、程式碼 1、準備資料 2、資料分成 train和test進行測試：用train的資料訓練（fit）出的model帶入（transform）test資料

spark streaming 之window視窗操作

技術標籤：windowspark大資料視窗函式，就是在DStream流上，以一個可配置的長度為視窗，以一個可配置的速率向前移動視窗，根據視窗函式的具體內容，分別對當前視窗中的這一波資料採取某個對應的操作運算元。

[LeetCode] 323. Number of Connected Components in an Undirected Graph

Givennnodes labeled from0ton - 1and a list of undirected edges (each edge is a pair of nodes), write a function to find the number of connected components in an undirected graph.

spark 系列之四 Spark查詢關係型資料庫

spark是一套資料處理框架，資料分為靜態資料和實時資料（sparkStreaming）因為spark本身是一個數據處理的框架，本身不負責生產資料和儲存資料。

spark 系列之六 SparkStreaming資料來源之socket流

SparkStreaming 這個名字起的很有意思，就是隻要能流式讀取的資料，都可以作為SparkStreaming的資料來源

spark 系列之七 SparkStreaming資料來源之kafka流

突然感覺kafka跟socket有點像，不過kafka好像具備更多的功能，是一個經典的消費者生產者模式。

Spark SQL 之 RDD、DataFrame 和 Dataset 如何選擇

引言 Apache Spark 2.2 以及以上版本提供的三種 API - RDD、DataFrame 和 Dataset，它們都可以實現很多相同的資料處理，它們之間的效能差異如何，在什麼情況下該選用哪一種呢？

spark Graphx 之 Connected Components

一、Connected Components演算法

二、示例

相關推薦