spark 詞頻統計

阿新 • • 發佈：2020-08-20

spark 詞頻統計

package com.imooc.bigdata.chapter02

import org.apache.spark.{SparkConf, SparkContext}

/**
  * 詞頻統計案例
  * 輸入：檔案
  * 需求：統計出檔案中每個單詞出現的次數
  * 1）讀每一行資料
  * 2）按照分隔符把每一行的資料拆成單詞
  * 3）每個單詞賦上次數為1
  * 4）按照單詞進行分發，然後統計單詞出現的次數
  * 5）把結果輸出到檔案中
  * 輸出：檔案
  */
object SparkWordCountApp {

  /**
    * master: 執行模式，local
    *
    */
  def main(args: Array[String]): Unit = {
    val sparkConf = new SparkConf().setMaster("local").setAppName("SparkWordCountApp")
    val sc = new SparkContext(sparkConf)


    // Spark特性：提供了80+高階API
    val rdd = sc.textFile("E:\\06-work\\03-java\\01-JavaCodeDome\\SparkSqlCode\\sparksql-train\\data\\input.txt")

    /**
      * 結果按照單詞的出現的個數的降序排列
      */

    rdd.flatMap(_.split(" ")).map(word => (word, 1))
      .reduceByKey(_+_).map(x => (x._2, x._1)).sortByKey(false)
        .map(x=> (x._2, x._1))
      .saveAsTextFile("E:\\06-work\\03-java\\01-JavaCodeDome\\SparkSqlCode\\sparksql-train\\data\\out")
      //.collect().foreach(println)

      //.sortByKey().collect().foreach(println)
        //.saveAsTextFile("file:///Users/rocky/IdeaProjects/imooc-workspace/sparksql-train/out")
      //.collect().foreach(println)

    //rdd.collect().foreach(println)

    sc.stop()
  }
}

spark 詞頻統計

spark 詞頻統計 package com.imooc.bigdata.chapter02 import org.apache.spark.{SparkConf, SparkContext}

詞頻統計方案與具體實現-elasticsearch、spark、python

詞頻自用，侵刪詞頻統計方案與具體實現-elasticsearch、spark、python 方案一、基於ElasticSearch方式

使用Spark RDD完成詞頻統計

1、實驗要求對給定的一個英文文字，使用Spark完成文字內容的讀取並轉換成RDD，然後使用RDD的運算元統計每個單詞出現的次數，將統計結果按從大到小的順序列印到控制檯上。

Python英文文章詞頻統計(14份劍橋真題詞頻統計)

Python劍橋真題詞頻統計最好還是要學以致用，自主蒐集了19年最近的14份劍橋真題之後，通過Python提供的jieba第三方庫，對所有的文章資訊進行了詞頻統計，並選擇性地剔除了部分簡易詞彙，比如數字，普通冠詞等，博主

C語言實現英文文字詞頻統計

這幾天寫了一個基於C語言對文字詞頻進行統計的程式，開發及除錯環境：mac整合開發環境Xcode；測試文字，馬丁.路德金的《I have a dream》原文演講稿。

Python：詞頻統計及排序

對一段文字，想要統計各種詞語出現的次數，即詞頻統計，思路是先分詞，再進行數量統計、排序。

詞頻統計例項

目錄英文(詞頻統計)中文(三國演義詞頻統計)詞頻統計2.0->三國演義人物出場統計詞雲實現

20200917-2 詞頻統計

此作業的要求參見：https://edu.cnblogs.com/campus/nenu/2020Fall/homework/11206 詞頻統計 SPEC

張兵傑 20200917-2 詞頻統計

詞頻統計 SPEC 1. 功能1小檔案輸入。為表明程式能跑，結果真實而不是迫害老五，請他親自鍵盤在控制檯下輸入命令。

宮立秋20200917-2 詞頻統計

此作業要求參見：https://edu.cnblogs.com/campus/nenu/2020Fall/homework/11206 詞頻統計 SPEC 老五在寢室吹牛他熟讀過《魯濱遜漂流記》，在女生面前吹牛熱愛《呼嘯山莊》《簡愛》和《飄》，在你面前說通讀了《戰爭

詞頻統計 SPEC

此作業的要求參見https://edu.cnblogs.com/campus/nenu/2020Fall/homework/11206 功能1小檔案輸入。為表明程式能跑，結果真實而不是迫害老五，請他親自鍵盤在控制檯下輸入命令。

python使用jieba實現簡單的詞頻統計

import jieba def getText(): txt=open(\"hamlet.txt\",\"r\").read() txt=txt.lower() for ch in \'|\"#$%&()*+,-./:;<>+?@[\\\\]^_{|}~\':

第八次 Hive 操作與應用詞頻統計

一、hive用本地檔案進行詞頻統計 1.準備本地txt檔案 echo \"hadoop hbase\" > f1.txt echo \"hadoop hive\" > f2.txt

第八次：Hive 操作與應用詞頻統計

一、hive用本地檔案進行詞頻統計 1.準備本地txt檔案 1 2 echo \"hadoop hbase\" > f1.txt

042 例項10-文字詞頻統計

目錄一、\"文字詞頻統計\"問題分析 1.1 問題分析二、\"Hamlet英文詞頻統計\"例項講解

Python詞頻統計的3種方法

技術標籤：python 大家好，我是小小明。上次，我分享了《100毫秒過濾一百萬字文字的停用詞》，這次我將分享如何進行詞頻統計。

浙大版《Python 程式設計》題目集第7章-1 詞頻統計

技術標籤：# Python學習筆記python 第7章-1 詞頻統計 import sys s = sys.stdin.read()#系統標準輸入模組一次讀入

leetcode--shell練習之詞頻統計

技術標籤：Shellshellleetcodelinuxawk 題目寫一個 bash 指令碼以統計一個文字檔案 words.txt 中每個單詞出現的頻率。

09 使用python完成詞頻統計

技術標籤：pythonlinux大資料hadoopubuntu 1 系統、軟體以及前提約束 CentOS-7 64 為減少linux許可權對初學者造成影響，所有命令均在linux的root許可權下進行操作。已安裝hadoop-2.5.2 https://www.jianshu.com

Spark詞彙統計例子一

執行WordCount程式 sc.textFile(\"./input\").flatMap(_.split(\" \")).map((_,1)).reduceByKey(_+_).collect

spark 詞頻統計

spark 詞頻統計

相關推薦