Pyspark獲取並處理RDD資料程式碼例項

阿新 • • 發佈：2020-03-30

彈性分散式資料集（RDD）是一組不可變的JVM物件的分佈集，可以用於執行高速運算，它是Apache Spark的核心。

在pyspark中獲取和處理RDD資料集的方法如下：

1. 首先是匯入庫和環境配置（本測試在linux的pycharm上完成）

import os
from pyspark import SparkContext,SparkConf
from pyspark.sql.session import SparkSession
os.environ["PYSPARK_PYTHON"]="/usr/bin/python3"
conf = SparkConf().setAppName('test_rdd')
sc = SparkContext('local','test',conf=conf)
spark = SparkSession(sc)

2. 然後，提供hdfs分割槽資料的路徑或者分割槽表名

txt_File = r"hdfs://host:port/apps/hive/warehouse/資料庫名.db/表名/分割槽名/part-m-00029.deflate" # part-m-00029.deflate
# txt_File = r"hdfs://host:port/apps/hive/warehouse/資料庫名.db/表名" # hive table

3. sc.textFile進行讀取，得到RDD格式資料<還可以用 spark.sparkContext.parallelize(data) 來獲取RDD資料>，引數中還可設定資料被劃分的分割槽數

txt_ = sc.textFile(txt_File)

4. 基本操作：

type(txt_)：顯示資料型別，這時屬於 'pyspark.rdd.RDD'
txt_.first()：獲取第一條資料
txt_.take(2)：獲取前2條資料，形成長度為2的list
txt_.take(2)[1].split('\1')[1]：表示獲取前兩條中的第[1]條資料（也就是第2條，因為python的索引是從0開始的），並以 '\1'字元分隔開（這要看你的表用什麼作為分隔符的），形成list，再獲取該list的第2條資料
txt_.map(lambda x:x.split('\1'))：使用lambda函式和map函式快速處理每一行資料，這裡表示將每一行以 '\1'字元分隔開，每一行返回一個list；此時資料結構是：'pyspark.rdd.PipelinedRDD'

txt_.map(lambda x:(x,x.split('\1'))).filter(lambda y:y[0].startswith('北京'))：表示在返回 (x,x.split('\1')) 後，進行篩選filter，獲取其中以 '北京' 開頭的行，並按照相同格式（例如，這裡是(x,x.split('\1'))格式，即原資料+分割後的列表資料）返回資料
txt_.collect()：返回所有RDD資料元素，當資料量很大時謹慎操作
txt_.toDF()：不能直接轉成DataFrame格式，需要設定Schema

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支援我們。

Pyspark獲取並處理RDD資料程式碼例項

彈性分散式資料集（RDD）是一組不可變的JVM物件的分佈集，可以用於執行高速運算，它是Apache Spark的核心。

Spring Date jpa 獲取最新一條資料的例項程式碼

#Repository import test.demo.domain.entity.TestEntity; import org.springframework.data.jpa.repository.support.JpaRepositoryImplementation;

Python通過遞迴獲取目錄下指定檔案程式碼例項

這篇文章主要介紹了python通過遞迴獲取目錄下指定檔案程式碼例項,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

python 向量資料轉柵格資料程式碼例項

這篇文章主要介紹了python 向量資料轉柵格資料程式碼例項,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

python智聯招聘爬蟲並匯入到excel程式碼例項

這篇文章主要介紹了python智聯招聘爬蟲並匯入到excel程式碼例項,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

使用Python指令碼從檔案讀取資料程式碼例項

這篇文章主要介紹了使用Python指令碼從檔案讀取資料程式碼例項,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Java獲取時間列印到控制檯程式碼例項

這篇文章主要介紹了Java獲取時間列印到控制檯程式碼例項,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Javabean轉換成json字元並首字母大寫程式碼例項

這篇文章主要介紹了javabean轉成json字元並首字母大寫程式碼例項,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Python陣列並集交集補集程式碼例項

這篇文章主要介紹了Python陣列並集交集補集程式碼例項,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

基於javascript實現獲取最短路徑演算法程式碼例項

這篇文章主要介紹了基於javascript實現獲取最短路徑演算法程式碼例項,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Spring Boot專案維護全域性json資料程式碼例項

這篇文章主要介紹了Spring Boot專案維護全域性json資料程式碼例項,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

JAVA如何轉換樹結構資料程式碼例項

在實戰開發中經常有需要處理樹形選單、樹形目錄等等等業務需求。而對於這種產品，在設計資料庫時也建議使用id<----->parentId的結構來做。但是最終前端顯示多用hightChart或者Echart外掛來實現。所以在給前端資

Struts2返回json格式資料程式碼例項

最近由於工作原因，沒時間更新，開始吧~~ 關於json的返回需要用到一個工具包來將書轉換為json格式，在此用到的jar包為：

python+selenium+chrome批量檔案下載並自動建立資料夾例項

實現效果：通過url所繫結的關鍵名建立目錄名，每次訪問一個網頁url後把檔案下載下來

Python selenium爬取微博資料程式碼例項

爬取某人的微博資料，把某人所有時間段的微博資料都爬下來。具體思路：建立driver-----get網頁----找到並提取資訊-----儲存csv----翻頁----get網頁（開始迴圈）----...----沒有“下一頁”就結束，

SpringBoot基於Shiro處理ajax請求程式碼例項

寫一個Shiro的過濾器 import cn.erika.demo.common.model.vo.Message; import com.alibaba.fastjson.JSON;

Python faker生成器生成虛擬資料程式碼例項

今天給大家介紹一個Faker模組，一款基於Python的測試資料生成工具，無論是用於初始化資料庫，建立XML檔案，或是生成壓測資料，Faker都是不錯的選擇。

Spring mvc Json處理實現流程程式碼例項

接收JSON 瀏覽器傳來的引數，可以是 key/value 形式的，也可以是一個 JSON 字串。在 Jsp/Servlet 中，我們接收 key/value 形式的引數，一般是通過 getParameter 方法。如果客戶端商戶傳的是 JSON 資料，我們可以通過

如何在python中處理配置檔案程式碼例項

配置檔案是一種計算機檔案，可以為一些計算機程式配置引數和初始設定，在內容形式上是一個一個鍵值對的記錄。

python處理寫入資料程式碼講解

首先要利用python進行讀取整個檔案，然後逐行讀取，最後寫入資料。具體實現步驟參考如下：

Pyspark獲取並處理RDD資料程式碼例項

相關推薦