【大資料】RDD計算常見場景

阿新 • • 發佈：2022-04-06

一、目的
本文主要用於記錄大資料學習過程中一些沉澱

from pyspark import SparkContext,SparkConf

spconf =SparkConf().setAppName("ji").setMaster("local[*]")
sc = SparkContext(conf=spconf)

#1.求平均數
df = [1,5,7,10,23,20,6,5,10,7,10]
rdd_data = sc.parallelize(df)
total = rdd_data.reduce(lambda x,y:x+y+0.0)
count = rdd_data.count()
ava = total/count
print(total,count,ava)

#2.求眾數，有多個眾數，求眾數平均值
data = [1,5,7,10,23,20,7,5,10,7,10]
rdd_data = sc.parallelize(data)
rdd_count = rdd_data.map(lambda x:(x,1)).reduceByKey(lambda x,y:x+y)
max_count = rdd_count.map(lambda x:x[1]).reduce(lambda x,y:x if x>y else y)
rdd_filter = rdd_count.filter(lambda x:x[1]==max_count).map(lambda x:x[0]) #
mode = rdd_filter.reduce(lambda x,y:x+y+0.0)/rdd_filter.count() #[10, 7]
print(mode)

#3.求topN
#有一批學生資訊表格，包括name,age,score, 找出score排名前3的學生, score相同可以任取
students = [("LiLei",18,87),("HanMeiMei",16,77),("DaChui",16,66),("Jim",18,77),("Ruanhua",18,50)]
n = 3
rdd_data = sc.parallelize(students)
rdd_sorted = rdd_data.sortBy(lambda x:x[2],ascending=False)
topN = rdd_sorted.take(n)
print(topN)

#4.排序並返回序號
#任務：按從小到大排序並返回序號, 大小相同的序號可以不同
import time
starttime = time.time()
data = [1,7,8,5,3,18,34,9,0,12,8]
rdd_data = sc.parallelize(data)
rdd_sort = rdd_data.map(lambda x:(x,1)).sortByKey().map(lambda x:x[0])
index_rdd = rdd_sort.zipWithIndex()
endtime = time.time()
sparktime = endtime-starttime
print("spakrtime",sparktime)

#5，二次排序
#任務：有一批學生資訊表格，包括name,age,score
#首先根據學生的score從大到小排序，如果score相同，根據age從大到小
students = [("LiLei",18,87),("HanMeiMei",16,77),("DaChui",16,66),("Jim",18,77),("Ruanhua",18,50)]
rdd_data = sc.parallelize(students)
from bigdata.example.exercise.student import STUDENT
rdd1 = rdd_data.map(lambda x:STUDENT(x[0],x[1],x[2])).sortBy(lambda x:x,ascending=False).map(lambda x:(x.name,x.age,x.score))
print(rdd1.collect())

#6.分組求眾數
#任務：有一批學生資訊表格，包括class和age。求每個班級學生年齡的眾數。
students = [("class1",15),("class1",15),("class2",16),("class2",16),("class1",17),("class2",19)]

【大資料】RDD計算常見場景

一、目的本文主要用於記錄大資料學習過程中一些沉澱from pyspark import SparkContext,SparkConfspconf =SparkConf().setAppName(\"ji\").setMaster(\"local[*]\")sc = SparkContext(conf=spconf)#1.求平均數df = [1

【大資料】hive 分析 nginx 日誌

目錄1.nginx 日誌收集2.hive 建表載入資料3.分析資料4.資料視覺化 1.nginx 日誌收集

【大資料】Hadoop的偽分散式安裝

這幾天開始學習大資料，這離不開Hadoop這個Apache的經典專案。 Hadoop官網：https://hadoop.apache.org/

【大資料】Hadoop的全分散式安裝

準備叢集伺服器準備在虛擬機器中建立四個配置為1核，2G記憶體，20G儲存的虛擬機器。（在這裡有任何問題，請參考上篇博文——>傳送門）

【大資料】Hadoop的高可用叢集(HA)部署

這裡基於之前的博文，即在全分散式安裝的基礎上增量部署高可用叢集。叢集部署表如下：

【大資料】Hadoop的HDFS的API開發小實戰

在部署完了高可用的叢集的基礎上，開始對目前的叢集做一次小開發，練練手。

【大資料】MapReduce開發小實戰

Before：前提:hadoop叢集應部署完畢。一、實戰科目：做一個Map Reduce分散式開發，開發內容為統計檔案中的單詞出現次數。

【大資料】那些簡化操作的輔助指令碼

技術標籤：大資料大資料hadoophivezookeeperkafka 【大資料】那些簡化操作的輔助指令碼

【大資料】Hadoop實驗報告

連結地址：【大資料】Hadoop實驗報告目錄實驗一熟悉常用的Linux操作和Hadoop操作1.實驗目的2.實驗平臺3.實驗內容和要求實驗二熟悉常用的HDFS操作1.實驗目的2.實驗平臺3.實驗步驟實驗三熟悉常用的HBase操作1.實驗

【大資料】大資料相關的Troubshooting

問題1 pyspark的df.show() 報錯Method showString([class java.lang.Integer, class java.lang.Integer]) does not exist

【大資料面試】【框架】Hive：架構、計算引擎、比較、內外部表、by、函式、優化、資料傾斜、動靜態分割槽

一、組成 1、架構源資料原本是存在dubby資料庫，存在MySQL可以支援多個客戶端

【大資料-課程】高途-天翼雲侯聖文-Day3-實時計算原理解析

〇、老師及課程介紹一、今日內容二、實時計算理論解析 1、什麼是實時計算微批處理、流式處理、實時計算

【大資料Kafka之 high-level--Consumer 】

>>> 一、特點：不用關心offset, 會自動的讀zookeeper中該Consumer group的last offset

【大資料分析】Ch.5：潛在語義分析·LSA（Latent Semantic Analysis）

本章的內容是對自然語言的分析，並非單純數與字元的統計，而是嘗試去理解人類的語言描述概念。自然語言通常是指一種自然地隨文化演化的語言。例如，漢語、英語、日語為自然語言的例子，這一種用法可見於自然

P5682 [CSPJX2019]次大值【民間資料】

題目描述 Alice 有 nnn 個正整數，數字從 1∼n1 \\sim n1∼n 編號，分別為 a1,a2,…,ana_1,a_2, \\dots , a_na1,a2,…,an。

【大資料面試】【框架】Hadoop-入門、HDFS

一、入門 1、常用埠號 2.x 50070：檢視HDFS Web-UI 8088：檢視MapReduce執行情況 19888：歷史伺服器

【大資料面試】sqoop：空值、資料一致性、列式儲存匯出、資料量、資料傾斜

一、有沒有遇到過問題，怎麼進行解決的 1、空值問題本質：hive底層儲存空資料使用\\n《==》MySQL儲存空資料使用null

【大資料面試】【專案】數倉架構

一、質疑分層不合理雲上大資料數倉解決方案：https://www.aliyun.com/solution/datavexpo/datawarehouse

【大資料面試】【數倉專案】其他知識點：行為數倉、業務數倉、拉鍊表、即席查詢

一、使用者行為數倉. 1、數倉分層架構圖要會畫 2、埋點行為資料基本格式(基本欄位)

【大資料許可權分配】一、kerberos

一、kerberos概念金鑰分發中心，管理使用者身份資訊，進行身份認證。二、安裝