Spark實戰(四)spark+python快速入門實戰小例子(PySpark)

阿新 • • 發佈：2020-09-14

由於目前很多spark程式資料都是用scala語言寫的，但是現在需要用python來實現，於是在網上找了scala寫的例子改為python實現

1、叢集測試例項

程式碼如下：
from pyspark.sql import SparkSession

if __name__ == "__main__":
    spark = SparkSession\
            .builder\
            .appName("PythonWordCount")\
            .master("spark://mini1:7077") \
            .getOrCreate()
    spark.conf.set("spark.executor.memory", "500M")
    sc = spark.sparkContext
    a = sc.parallelize([1, 2, 3])
    b = a.flatMap(lambda x: (x,x ** 2))
    print(a.collect())
    print(b.collect())

執行結果：

2、從檔案中讀取

為了方便除錯，這裡採用本地模式進行測試

from py4j.compat import long
from pyspark.sql import SparkSession
def formatData(arr):
    # arr = arr.split(",")
    mb = (arr[0], arr[2])
    flag = arr[3]
    time = long(arr[1])
    # time = arr[1]
    if flag == "1":
          time = -time
    return (mb,time)


if __name__ == "__main__":
    spark = SparkSession\
            .builder\
            .appName("PythonWordCount")\
            .master("local")\
            .getOrCreate()

    sc = spark.sparkContext
    # sc = spark.sparkContext
    line = sc.textFile("D:\\code\\hadoop\\data\\spark\\day1\\bs_log").map(lambda x: x.split(','))
    count = line.map(lambda x: formatData(x))
    rdd0 = count.reduceByKey(lambda agg, obj: agg + obj)
    # print(count.collect())
    line2 = sc.textFile("D:\\code\\hadoop\\data\\spark\\day1\\lac_info.txt").map(lambda x: x.split(','))

    rdd = count.map(lambda arr: (arr[0][1], (arr[0][0], arr[1])))
    rdd1 = line2.map(lambda arr: (arr[0], (arr[1], arr[2])))

    rdd3 = rdd.join(rdd1)
    rdd4 =rdd0.map(lambda arr: (arr[0][0], arr[0][1], arr[1]))
        # .map(lambda arr: list(arr).sortBy(lambda arr1: arr1[2]).reverse)
    rdd5 = rdd4.groupBy(lambda arr: arr[0]).values().map(lambda das: sorted(list(das), key=lambda x: x[2], reverse=True))
    print(rdd5.collect())

原檔案資料：

結果如下：

[[('18688888888', '16030401EAFB68F1E3CDF819735E1C66', 87600), ('18688888888', '9F36407EAD0629FC166F14DDE7970F68', 51200), ('18688888888', 'CC0710CC94ECC657A8561DE549D940E0', 1300)], [('18611132889', '16030401EAFB68F1E3CDF819735E1C66', 97500), ('18611132889', '9F36407EAD0629FC166F14DDE7970F68', 54000), ('18611132889', 'CC0710CC94ECC657A8561DE549D940E0', 1900)]]

3、讀取檔案並將結果儲存至檔案

from pyspark.sql import SparkSession
from py4j.compat import long


def formatData(arr):
    # arr = arr.split(",")
    mb = (arr[0], arr[2])
    flag = arr[3]
    time = long(arr[1])
    # time = arr[1]
    if flag == "1":
          time = -time
    return (mb,time)


if __name__ == "__main__":
    spark = SparkSession\
            .builder\
            .appName("PythonWordCount")\
            .master("local")\
            .getOrCreate()
    sc = spark.sparkContext
    line = sc.textFile("D:\\code\\hadoop\\data\\spark\\day1\\bs_log").map(lambda x: x.split(','))
    rdd0 = line.map(lambda x: formatData(x))
    rdd1 = rdd0.reduceByKey(lambda agg, obj: agg + obj).map(lambda t: (t[0][1], (t[0][0], t[1])))
    line2 = sc.textFile("D:\\code\\hadoop\\data\\spark\\day1\\lac_info.txt").map(lambda x: x.split(','))
    rdd2 = line2.map(lambda x: (x[0], (x[1], x[2])))
    rdd3 = rdd1.join(rdd2).map(lambda x: (x[1][0][0], x[0], x[1][0][1], x[1][1][0], x[1][1][1]))

    rdd4 = rdd3.groupBy(lambda x: x[0])
    rdd5 = rdd4.mapValues(lambda das: sorted(list(das), key=lambda x: x[2], reverse=True)[:2])
    print(rdd1.join(rdd2).collect())
    print(rdd5.collect())
    rdd5.saveAsTextFile("D:\\code\\hadoop\\data\\spark\\day02\\out1")
    sc.stop()

結果如下：

4、根據自定義規則匹配

import urllib
from pyspark.sql import SparkSession
def getUrls(urls):
    url = urls[0]
    parsed = urllib.parse.urlparse(url)
    return (parsed.netloc, url, urls[1])

if __name__ == "__main__":
    spark = SparkSession \
        .builder \
        .appName("PythonWordCount") \
        .master("local") \
        .getOrCreate()
    sc = spark.sparkContext
    line = sc.textFile("D:\\code\\hadoop\\data\\spark\\day02\\itcast.log").map(lambda x: x.split('\t'))
    //從資料庫中載入規則
    arr = ["java.itcast.cn", "php.itcast.cn", "net.itcast.cn"]
    rdd1 = line.map(lambda x: (x[1], 1))
    rdd2 = rdd1.reduceByKey(lambda agg, obj: agg + obj)
    rdd3 = rdd2.map(lambda x: getUrls(x))

    for ins in arr:
        rdd = rdd3.filter(lambda x:x[0] == ins)
        result = rdd.sortBy(lambda x: x[2], ascending = False).take(2)
        print(result)
    spark.stop()

結果如下：

5、自定義類排序

from operator import gt
from pyspark.sql import SparkSession


class Girl:
    def __init__(self, faceValue, age):
        self.faceValue = faceValue
        self.age = age

    def __gt__(self, other):
        if other.faceValue == self.faceValue:
            return gt(self.age, other.age)
        else:
            return gt(self.faceValue, other.faceValue)


if __name__ == "__main__":
    spark = SparkSession\
            .builder\
            .appName("PythonWordCount")\
            .master("local")\
            .getOrCreate()
    sc = spark.sparkContext
    rdd1 = sc.parallelize([("yuihatano", 90, 28, 1), ("angelababy", 90, 27, 2), ("JuJingYi", 95, 22, 3)])
    rdd2 = rdd1.sortBy(lambda das: Girl(das[1], das[2]),False)
    print(rdd2.collect())
    sc.stop()

結果如下：

6、JDBC

from pyspark import SQLContext
from pyspark.sql import SparkSession

if __name__ == "__main__":
    spark = SparkSession\
            .builder\
            .appName("PythonWordCount")\
            .master("local")\
            .getOrCreate()
    sc = spark.sparkContext
    sqlContext = SQLContext(sc)
    df = sqlContext.read.format("jdbc").options(url="jdbc:mysql://localhost:3306/hellospark",driver="com.mysql.jdbc.Driver",dbtable="(select * from actor) tmp",user="root",password="123456").load()
    print(df.select('description','age').show(2))
    # print(df.printSchema)

    sc.stop()

結果如下：

Spark實戰(四)spark+python快速入門實戰小例子(PySpark)

由於目前很多spark程式資料都是用scala語言寫的，但是現在需要用python來實現，於是在網上找了scala寫的例子改為python實現

Python 爬蟲入門實戰

1. 前言首先自我介紹一下，我是一個做 Java 的開發人員，從今年下半年開始，一直在各大技術部落格網站發表自己的一些技術文章，差不多有幾個月了，之前在 cnblog 部落格園加了網站統計程式碼，看到每天的訪問量逐

ElasticSearch實戰系列六: Logstash快速入門和實戰

前言本文主要介紹的是ELK日誌系統中的Logstash快速入門和實戰 ELK介紹 ELK是三個開源軟體的縮寫，分別表示：Elasticsearch , Logstash, Kibana , 它們都是開源軟體。新增了一個FileBeat，它是一個輕量級的日誌收集處

ElasticSearch實戰系列八: Filebeat快速入門和使用---圖文詳解

前言本文主要介紹的是ELK日誌系統中的Filebeat快速入門教程。 ELK介紹 ELK是三個開源軟體的縮寫，分別表示：Elasticsearch , Logstash, Kibana , 它們都是開源軟體。新增了一個FileBeat，它是一個輕量級的日誌收集處

Python爬蟲入門實戰專案--爬取新筆趣閣小說

1、網頁檢視進入到全部小說，這就是我們要爬取的小說，這些夠看很長時間了

Python爬蟲入門實戰（2）獲取多個網頁中指定的一組資料

本文程式碼片段和部分內容轉載自Python123的木下瞳的專欄，由本人進行改動與整理，並且增加部分註釋。

Python快速入門神器 python 裝飾器

https://zhuanlan.zhihu.com/c_1189883314197168128 45、ORM框架SQLAlchemy https://zhuanlan.zhihu.com/p/120953101

史上最全Python快速入門教程，滿滿都是乾貨

Python是面向物件，高階語言，解釋，動態和多用途程式語言。Python易於學習，而且功能強大，功能多樣的指令碼語言使其對應用程式開發具有吸引力。Python的語法和動態型別具有其解釋性質，使其成為許多領域的指令碼編

python快速入門教程，加拿大的教授親自編寫，要的直接拿走

看過很多人學python，但唯獨這樣的方式，最讓我直接推薦一下。 **它擁有全面系統的知識點，但卻又沒有複雜難懂的內容，**基本就這一份教程，就能帶你學會python所有的基礎知識點。

python快速入門——此文足矣

列表丶字典丶元組丶集合一丶總結二丶知識傳送門1.python列表2.python字典3.python元組4.python集合

MyBatis-Plus 快速入門案例(小白教程)

一、引言學習MyBatis-Plus前提需要掌握：資料庫相關操作、java等相關知識，最好熟悉Mybatis。

python操作sqlite的小例子

照著菜鳥教程學習python操作sqlite ubuntu 安裝 sudo apte-get install sqlite3 找到了 sqlite3/bionic-updates,bionic-security,now 3.22.0-1ubuntu0.4 amd64 [installed]

三小時快速入門Python第四篇--函式與物件

函式與物件 1、函式 1 # 使用 \"def\" 來建立一個新的函式 2 def add(x, y): 3print (\"x is {0} and y is {1}\".format(x, y))

《Redis核心原理與實戰》學習筆記1——Redis快速入門

一、Redis介紹 Redis是由C語言開發的開源記憶體資料儲存器，經常被用作資料庫、快取、以及訊息佇列等。

Spark GraphX圖計算快速入門

一.概述 GraphX是Spark中用於圖形和圖形平行計算的新元件。在較高的層次上，GraphX通過引入新的Graph抽象來擴充套件SparkRDD：一個有向多重圖，其屬性附加到每個頂點和邊上。為了支援圖計算，GraphX公開了一組基本的

【轉載】Git的快速入門及實戰演練

作者：依樂祝原本地址：https://www.cnblogs.com/yilezhu/p/10014027.html Git快速入門本部分我會先通過故事的形式講解下Git的誕生，及其強大的分散式版本控制的能力。然後再給大家介紹一下我們在實際的專案開發

Spark_2：Spark 快速入門教程

本文轉自：Spark 快速入門教程 1. Spark 是什麼 Apache Spark 是個通用的叢集計算框架，通過將大量資料集計算任務分配到多臺計算機上，提供高效記憶體計算。Spark 正如其名，最大的特點就是快（Lightning-fast），

Golang Gin 實戰（一）| 快速安裝入門

Gin 是一個非常優秀的Golang Web Framework，它不光API友好，效能也非常高，並且設計簡潔，便於入門。所以它(Gin)非常受歡迎，在Github上已經三萬三千多個星星，也是我最喜歡的Web 框架。

參悟python元類(又稱metaclass)系列實戰(四)

寫在前面在上一章節參悟python元類(又稱metaclass)系列實戰(三)完成了users類和users表的欄位對映;

Python爬蟲入門：擴充套件知識點（超時設定、HTTP協議請求實戰：）

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

Spark實戰(四)spark+python快速入門實戰小例子(PySpark)

1、叢集測試例項

2、從檔案中讀取

3、讀取檔案並將結果儲存至檔案

4、根據自定義規則匹配

5、自定義類排序

6、JDBC

相關推薦