使用Spark RDD完成詞頻統計

阿新 • • 發佈：2021-10-27

1、實驗要求

對給定的一個英文文字，使用Spark完成文字內容的讀取並轉換成RDD，然後使用RDD的運算元統計每個單詞出現的次數，將統計結果按從大到小的順序列印到控制檯上。

2、實驗程式碼

import findspark
findspark.init()
from pyspark import SparkContext, SparkConf

sparkConf = SparkConf()
sparkConf.setAppName("wordcount")
sparkConf.setMaster("local")
sparkContext = SparkContext(conf=sparkConf)

txtFile = r'C:\Users\LYW\Desktop\英文文件.txt'  # 檔案路徑
rdd = sparkContext.textFile(txtFile)

rdd.flatMap(lambda x: x.split()).map(lambda x: (x, 1)).reduceByKey(lambda x, y: x + y).sortBy(keyfunc=(lambda x: x[1]),ascending=False).foreach(lambda x: print(x))

3、程式設計思路

既然我們要統計單詞出現的次數，那麼就要先把資料匯入，可以用sc.txtFile()方法來載入檔案資料，該方法把檔案的URI作為引數，要分割單詞，就可以使用rdd中的flatMap方法，它會遍歷textFile中的每行文字內容，當遍歷到其中一行文字內容時，會把文字內容賦值給變數x，並執行lamda表示式。接著執行x.split()).map(lambda x: (x, 1))會得到一個對映map，這個對映中包含了很多個(key,value)，針對這個對映，執行reduceByKey(lambda x, y: x + y)操作，這個操作會把對映中的所有(key,value)按照key進行分組，然後使用sortBy函式進行按照詞頻降序排序，最後使用foreach遍歷列印結果，這樣就計算得到了這個單詞的詞頻。

使用Spark RDD完成詞頻統計

1、實驗要求對給定的一個英文文字，使用Spark完成文字內容的讀取並轉換成RDD，然後使用RDD的運算元統計每個單詞出現的次數，將統計結果按從大到小的順序列印到控制檯上。

09 使用python完成詞頻統計

技術標籤：pythonlinux大資料hadoopubuntu 1 系統、軟體以及前提約束 CentOS-7 64 為減少linux許可權對初學者造成影響，所有命令均在linux的root許可權下進行操作。已安裝hadoop-2.5.2 https://www.jianshu.com

spark 詞頻統計

spark 詞頻統計 package com.imooc.bigdata.chapter02 import org.apache.spark.{SparkConf, SparkContext}

詞頻統計方案與具體實現-elasticsearch、spark、python

詞頻自用，侵刪詞頻統計方案與具體實現-elasticsearch、spark、python 方案一、基於ElasticSearch方式

spark rdd轉dataframe 寫入mysql的例項講解

dataframe是在spark1.3.0中推出的新的api，這讓spark具備了處理大規模結構化資料的能力，在比原有的RDD轉化方式易用的前提下，據說計算效能更還快了兩倍。spark在離線批處理或者實時計算中都可以將rdd轉成dataframe進

Python英文文章詞頻統計(14份劍橋真題詞頻統計)

Python劍橋真題詞頻統計最好還是要學以致用，自主蒐集了19年最近的14份劍橋真題之後，通過Python提供的jieba第三方庫，對所有的文章資訊進行了詞頻統計，並選擇性地剔除了部分簡易詞彙，比如數字，普通冠詞等，博主

C語言實現英文文字詞頻統計

這幾天寫了一個基於C語言對文字詞頻進行統計的程式，開發及除錯環境：mac整合開發環境Xcode；測試文字，馬丁.路德金的《I have a dream》原文演講稿。

Spark-RDD-彈性解析

1.對資料儲存自動進行記憶體和磁碟的切換 Spark優先將資料放入記憶體中，如果記憶體不夠，放到磁盤裡面，如果實際資料大於記憶體，需要考慮資料放置的策略和優化的演算法

Spark-RDD-寬窄依賴解析

1.窄依賴窄依賴表示一個父RDD中的Partition最多被子RDD的一個Partition使用窄依賴分為兩種：

Spark-RDD-DAG解析

1.原理說明有向無環圖：如果一個有向圖無法從任意頂點出發經過若干條邊回到該點，則這個圖是一個

Spark-RDD-內部計算機制

RDD的多個Partition由不同Task處理，Task分為shuffleMapTask和resultTask 1.Task解析 Task是計算的基本單位，一個Task處理RDD的一個Partition，Task執行在Executor上，Executor位於CoarseGrainedExecutorBackend中

Python：詞頻統計及排序

對一段文字，想要統計各種詞語出現的次數，即詞頻統計，思路是先分詞，再進行數量統計、排序。

SparkSQL /DataFrame /Spark RDD誰快？

如題所示，SparkSQL /DataFrame /Spark RDD誰快？按照官方宣傳以及大部分人的理解，SparkSQL和DataFrame雖然基於RDD，但是由於對RDD做了優化，所以效能會優於RDD。

詞頻統計例項

目錄英文(詞頻統計)中文(三國演義詞頻統計)詞頻統計2.0->三國演義人物出場統計詞雲實現

關於Spark RDD 的認識

一、基本認識 RDD是Spark大資料計算引擎中，抽象的一種資料結構。 RDD（Resilient Distributed Dataset），中文意思是彈性分散式資料集，它是Spark中的基本抽象。在Spark原始碼中，有下面的註釋：

Spark RDD

Spark RDD的簡介什麼是RDD？ RDD是整個Spark的基石，是一個彈性分散式的資料集，為使用者遮蔽了底層複雜的計算和對映操作。

通過WordCount解析Spark RDD內部原始碼機制

一、Spark WordCount動手實踐我們通過Spark WordCount動手實踐，編寫單詞計數程式碼；在wordcount.scala的基礎上，從資料流動的視角深入分析Spark RDD的資料處理過程。

20200917-2 詞頻統計

此作業的要求參見：https://edu.cnblogs.com/campus/nenu/2020Fall/homework/11206 詞頻統計 SPEC

張兵傑 20200917-2 詞頻統計

詞頻統計 SPEC 1. 功能1小檔案輸入。為表明程式能跑，結果真實而不是迫害老五，請他親自鍵盤在控制檯下輸入命令。

宮立秋20200917-2 詞頻統計

此作業要求參見：https://edu.cnblogs.com/campus/nenu/2020Fall/homework/11206 詞頻統計 SPEC 老五在寢室吹牛他熟讀過《魯濱遜漂流記》，在女生面前吹牛熱愛《呼嘯山莊》《簡愛》和《飄》，在你面前說通讀了《戰爭