【PySpark】學習記錄1

阿新 • • 發佈：2020-08-13

一. Spark介紹

Spark是一個分散式計算平臺。運算速度遠超於HDFS，並且能與python、java更好地互動。
我的疑問：在資料處理/模型訓練的過程中，Spark這個平臺是需要我手動寫一些程式碼，例如讀取資料啥的，還是我只要在帶有pyspark的kernal的平臺上執行就可以？kernal是什麼？？為什麼我在NAIE平臺上選了pyspark的kernal，接下來就會報錯呢？處理方式（資料讀寫這些）又不一樣嗎？

二. 今天的程式碼

匯入的所需要的包

import os
from operator import add
from pyspark import SparkContext

檢視當前檔案所在路徑。被路徑整怕了……

os.getcwd()

輸出：

'/home/ma-user/work'

檢視這個路徑下有什麼檔案：

os.listdir('/home/ma-user/work')

輸出：

['naie_platform', '__train.json', 'preprocess.ipynb',  'requirements.txt']

可以看到，我自己建了一個testSpark.txt並沒有顯示在這裡。。

1. 想要實現的功能：統計txt檔案裡單詞數目

讀取檔案並分割字串：

if len(sys.argv) < 2:
        print("Usage:wordcount <filepath>") # ？？？
        exit(-1)
    # initialize sparkcontext
#     sc = SparkContext(appName="Python_Word_Count") # 實際上不需要這個，會報錯，因為預設已經有了一個?或者只需要執行1次，最好是與sc.stop()一起用避免錯誤
    
# 將文字資料讀為一個存放字串的RDD
lines = sc.textFile('/home/ma-user/work/preprocess/requirements.txt') # sys.argv[1]是個json檔案，但我不懂它是什麼，也不知道會不會引起報錯
# lines = sc.textFile('sys.argv[0]') # 這個函式大概不能讀取.py 或者.json檔案吧 反正會報錯
# 把字串切分成單詞
words = lines.flatMap(lambda x:x.split(' '))
words.collect()

輸出：

['#name',
 '[condition]',
 '[version]',
 '#condition',
 '',
 '',
 '',
 '==,',
 '>=,',
 '<=,',
 '>,',
 '<',
 '#tensorflow==1.8.1',
 'naie']

每個單詞對映為(x,1)的樣子方便統計數目，利用map功能：

mapWords = words.map(lambda x:(x,1)) # PythonRDD[11] at RDD at PythonRDD.scala:52
mapWords.collect()

輸出：

[('#name', 1),
 ('[condition]', 1),
 ('[version]', 1),
 ('#condition', 1),
 ('', 1),
 ('', 1),
 ('', 1),
 ('==,', 1),
 ('>=,', 1),
 ('<=,', 1),
 ('>,', 1),
 ('<', 1),
 ('#tensorflow==1.8.1', 1),
 ('naie', 1)]

合併相同鍵值，實現統計單詞數目。
如果沒有collect()這個函式，每個函式返回的都是一個PythonRDD，看不出RDD裡的值的。

combine_same_keys = mapWords.reduceByKey(add) # PythonRDD[17] at RDD at PythonRDD.scala:52 
combine_same_keys.collect()

輸出：

[('[version]', 1),
 ('#condition', 1),
 ('', 3),
 ('==,', 1),
 ('>=,', 1),
 ('naie', 1),
 ('#name', 1),
 ('[condition]', 1),
 ('<=,', 1),
 ('>,', 1),
 ('<', 1),
 ('#tensorflow==1.8.1', 1)]

列印統計結果:

for (keys, counts) in combine_same_keys.collect():
    print(keys, counts)

輸出：

[version] 1
#condition 1
 3
==, 1
>=, 1
naie 1
#name 1
[condition] 1
<=, 1
>, 1
< 1
#tensorflow==1.8.1 1

關閉RDD
一開始只要開啟一次sc，然後關閉了之後下一次執行就需要再初始化一次textFile

sc.stop() # 關閉spark, 關閉後就會提示：AttributeError: 'NoneType' object has no attribute 'sc'

想試一試其他功能：
word_add1 = lines.flatMap(lambda x:x.split(' ')) # 對資料格式也有要求，並不會幫你把單詞轉為什麼東西然後+1，你看這個.map(lambda x:x+1)就不行，提示TypeError：TypeError: must be str, not int
word_add1.collect()
過濾掉重複的：

filter_same = word_add1.distinct()
filter_same.collect()

輸出：

['[version]',
 '#condition',
 '',
 '==,',
 '>=,',
 'naie',
 '#name',
 '[condition]',
 '<=,',
 '>,',
 '<',
 '#tensorflow==1.8.1']

篩選，filter是保留符合條件的，也就是將不等於'==,'和''的字元留下：

# filter_same.filter(lambda x:x!=('' and'==,'and'>=,'and'<'and'>,')).collect() # 這樣一個都刪不掉.. and/or都一樣
filter_same.filter(lambda x:x!= '==,' and x!='' ).collect() # 這樣可以刪掉兩個

['[version]',
 '#condition',
 '>=,',
 'naie',
 '#name',
 '[condition]',
 '<=,',
 '>,',
 '<',
 '#tensorflow==1.8.1']

2. 總結：整體流程是先建立一個RDD，然後對它進行操作

例：對一個數據為｛1，2，3，3｝的RDD進行基本RDD轉化操作

行動操作：

三. 報錯

遇見的報錯：

# ValueError: Cannot run multiple SparkContexts at once; existing SparkContext(app=Python_Word_Count, master=local[*]) created by __init__ at <ipython-input-46-e6dabb8e53ad>:1

出錯語句：

sc = SparkContext(appName="Python_Word_Count")

原因是這個只要開啟一次，在沒有關閉之前，再次輸入這個語句都會提示不能同時執行多個SparkContexts。

Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe : org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: file:/home/ma-user/work/readData/testSpark.text

找不到該檔案。

【PySpark】學習記錄1

一. Spark介紹 Spark是一個分散式計算平臺。運算速度遠超於HDFS，並且能與python、java更好地互動。

【HTML】學習路徑1-網頁基本結構-標籤基本語法

第一章：下載一個自己喜歡的輕量化程式碼編輯器我推薦初學者在一開始使用較為原始的開發環境，

【Unity3D學習記錄#1】Unity3D Android打包報錯：UnityEditor.BuildPlayerWindow+BuildMethodException

【Unity3D學習記錄#1】Unity3D Android打包出錯：UnityEditor.BuildPlayerWindow+BuildMethodException

【數倉專案記錄1】

資料倉庫概念資料倉庫（ Data Warehouse ），是為企業制定決策，提供資料支援的。可以幫助企業，改進業務流程、提高產品質量等。

【博學谷學習記錄】超強總結，用心分享|Java基礎分享-程序間通訊方式

目錄 1.管道 2.訊息佇列 3.共享記憶體 4.訊號量 5.訊號 6.Socket 1.管道如果你學過 Linux 命令，那你肯定很熟悉「|」這個豎線。

【博學谷學習記錄】超強總結，用心分享|Java基礎分享-計算機記憶體管理

目錄一、前言二、馮·諾伊曼結構 1、早期計算機結構 2、理論提出 3、五大部件

【博學谷學習記錄】超強總結，用心分享|狂野架構SpringBoot概念和依賴管理

SpringBoot主要特性 1、 SpringBoot Starter：他將常用的依賴分組進行了整合，將其合併到一個依賴中，這樣就可以一次性新增到專案的Maven或Gradle構建中；

【博學谷學習記錄】超強總結，用心分享|效能測試工具Jmeter的簡單使用

一、Jmeter的第一個案例需求：使用JMeter訪問百度首頁介面，並檢視請求和響應資訊

【博學谷學習記錄】超強總結，用心分享。執行緒池重難點知識

執行緒池 1.1 為什麼需要執行緒池在實際使用中，執行緒是很佔用系統資源的，如果對執行緒管理不完善的話很容易導致系統問題。因此，在大多數併發框架中都會使用執行緒池來管理執行緒，使用執行緒

【博學谷學習記錄】超強總結，用心分享|狂野架構SpringBoot自動配置

自動配置：根據我們新增的jar包依賴，會自動將一些配置類的bean註冊進ioc容器，我們可以需要的地方使用@Autowired或者@Resource等註解來使用它。

【博學谷學習記錄】超強總結，用心分享。Web重要知識點。

1. 網絡通訊部分 1.1 TCP與UDP區別？ TCP(Transmission Control Protocol 傳輸控制協議)是一種面向連線(連線導向)的、可靠的、基於 IP 的傳輸層協議。

P3372 【模板】線段樹 1

P3372 【模板】線段樹 1 #include<bits/stdc++.h> using namespace std; typedef long long ll; const ll N=1e5+10;

vue學習記錄1

一、通過腳手架安裝建立vue專案 1、安裝vue腳手架 npm install -g @vue/cli 2、通過命令 vue create 專案名稱來建立vue基礎專案

【網路】圖解HTTP-1

書籍是人類進步的階梯－－高爾基前言今天介紹一個簡單的話題，你知道當我們在瀏覽器網頁位址列輸入URL時，Web頁面是如何呈現的嗎？

Luogu P3372 【模板】線段樹 1

思路線段樹1是一道線段樹的經典模板題，所涉及的線段樹基礎知識也比較全面，作為線段樹初學者（比如我）的練手題就非常合適。這道題想讓我們完成的是對一個序列的區間修改和區間查詢。關於這兩個操作，

資料結構學習記錄1：順序表

#pragma once //標頭檔案 linearlist.h定義了線性表基類 template<class T> class LinearList

Vue.js（2.5）學習記錄1

Vue模板語法：模板語法概述：如何理解前端渲染：把資料填充到HTMl標籤中 2.前端渲染方式

P3372【模板】線段樹1

#include<bits/stdc++.h> using namespace std; const int maxn=5e5+100; typedef long long ll; struct node {

【題解】SAC E#1 - 一道難題 Tree

Problem is here \\(\\text{Solution:}\\) 首先，一眼看出這是最小割，只要葉子節點對匯點\\(T\\)連線流量為\\(inf\\)的邊就可以一遍最大流搞定了。

【Leetcode】 two sum #1 for rust solution

給定一個整數陣列 nums 和一個目標值 target，請你在該陣列中找出和為目標值的那兩個整數，並返回他們的陣列下標。你可以假設每種輸入只會對應一個答案。但是，陣列中同一個元素不能使用兩遍。示例:給定 nums = [2

【PySpark】學習記錄1

一. Spark介紹

二. 今天的程式碼

1. 想要實現的功能：統計txt檔案裡單詞數目

2. 總結：整體流程是先建立一個RDD，然後對它進行操作

三. 報錯

遇見的報錯：

相關推薦