寒假學習進度2

阿新 • • 發佈：2021-12-22

今天接著昨天spark學習

使用spark自己自帶的函式完成對文字中的單詞統計，昨天程式碼的進階版

程式碼：package com.chenghaixiang.core.wc

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object spark02_wordcount {
def main(args: Array[String]): Unit = {
// 建立 Spark 執行配置物件
val sparkConf = new SparkConf().setMaster("local[*]").setAppName("WordCount")
// 建立 Spark 上下文環境物件（連線物件）
val sc : SparkContext = new SparkContext(sparkConf)
// 讀取檔案資料
val fileRDD: RDD[String] = sc.textFile("D:\\qq text\\1791028291\\FileRecv\\《飄》英文版.txt")
// 將檔案中的資料進行分詞
val wordRDD: RDD[String] = fileRDD.flatMap( _.split(" ") )
// 轉換資料結構 word => (word, 1)
val word2OneRDD: RDD[(String, Int)] = wordRDD.map((_,1))
// 將轉換結構後的資料按照相同的單詞進行分組聚合
val word2CountRDD: RDD[(String, Int)] = word2OneRDD.reduceByKey(_+_)
// 將資料聚合結果採集到記憶體中
val word2Count: Array[(String, Int)] = word2CountRDD.collect()
// 列印結果
word2Count.foreach(println)
//關閉 Spark 連線
sc.stop()
}

}

spark本地模式測試：

首先安裝spark到linux上

上傳

到linux上

解壓

啟動spark

輸入網址看是否能登入

在spark本地上看是否能執行

spark上提交應用：

寒假學習進度2

今天接著昨天spark學習使用spark自己自帶的函式完成對文字中的單詞統計，昨天程式碼的進階版

Spark學習進度2

入門第一個應用的執行進入 Spark 安裝目錄中 cd /export/servers/spark/ 執行 Spark 示例任務

大三寒假學習進度（4）

tensorflow學習鳶尾花分類步驟 1 · 準備資料，包括資料集讀入、資料集亂序，把訓練集和測試集中的資料配成輸入特徵和標籤對，生成 train 和 test 即永不相見的訓練集和測試集；

科學計算與matlab學習進度2

本月所學如下 1：MATLAB基本計算：算術運算關係運算邏輯運算（1）基本算術運算基本算術運算子：＋(加)、－(減)、*(乘)、/(右除)、\\(左除)、 ^(乘方)。 MATLAB的算術運算是在矩陣意義下進行的。單個數據的算術

2021—2022學年第一學期寒假學習記錄2

2022.01.01，今天是服務外包競賽：隨便拿個獎隊的專案進行的第二天，今天根據專案要求開始學習matlab數字影象處理

2021-2022年寒假學習進度04

今天學習了spark執行結構的一些基本知識，同時學習了springboot後端框架的使用

2021-2022年寒假學習進度10

一、實驗目的掌握 Scala語言的基本語法、資料結構和控制結構；掌握面向物件程式設計的基礎知識，能夠編寫自定義類和特質；

2021-2022年寒假學習進度20

今天完成spark基礎實驗五一、實驗目的（1）通過實驗掌握SparkSQL的基本程式設計方法；

Java 解決構造方法引數過多-builder模式（effect java 學習筆記2）

一、前景：一般情況我們不會遇到這樣的情況，使用靜態工廠方法，或者構造方法就足夠。但是它們也有一個限制就是，它們不能很好的擴充套件到很多可選引數的場景。隨著我們業務的深入，某些java bean

在WIN上使用TORCS模擬器做深度強化學習（2）

當你在win上下載安裝好TORCS和patch之後（如果不會請翻看之前的文章），你可以點選安裝目錄中的wtorcs.exe來啟動客戶端

UiAutomator原始碼學習（2）-- UiAutomationBridge

從上一章對UiDevice的學習，可以看出幾乎所有的操作都離不開UiAutomationBridge。重新看一下UIDevice的構造方法：

第三天學習進度--文字情感分類（二）

昨天在情感處理的學習中瞭解到了關於word2vec的用法，今天我們繼續康康doc2vec究竟在情感分類的過程中是如何使用的。

第五天學習進度--(KBQA)初接觸知識圖譜之靜態知識提取（二）

昨天學習到對應的知識圖譜在networkx的構建，在此先前的程式碼上，新增一部分的程式碼，用來完成靜態知識的提取。

第六天學習進度--(KBQA)初接觸知識圖譜之動態知識提取（三）

昨天通過networkx自己構建了一個簡單的知識圖譜，但是遇到了一個問題，就是昨天構建的知識網路只適用於靜態的知識提取，相對應的那種動態的知識需要額外進行一個設定。今天就學習如何提取動態的知識並將其新增到對應

第七天學習進度--(KBQA)初接觸知識圖譜之最終改進（四）

通過這幾天對於知識圖譜的簡單構建，簡單地瞭解到了對應的知識圖譜中相關的工作原理。

java大資料最全課程學習筆記(2)--Hadoop完全分散式執行模式

目前CSDN,部落格園,簡書同步發表中,更多精彩歡迎訪問我的gitee pages 目錄 Hadoop完全分散式執行模式

第八天學習進度--Kmeans的應用之文字聚類

文字的聚類，就是為了解決大批量文字的自動分類的問題。之前遇到過這樣一個問題，就是有一堆文章的資料，想要得到這些文章對應的類別。但是這堆文章的資料裡面並沒有分類的資訊，要是按照傳統方式，需要人工對每篇文

python學習筆記2-運算子與流程控制

一、垃圾回收機制：　　（1）引用計數：變數值被變數名關聯（引用）的次數，存在迴圈引用問題。

JVM學習總結2

GC基礎知識垃圾什麼是垃圾？沒有引用的物件就是垃圾如何找到垃圾？

spring學習（2）依賴注入

依賴注入：spring通過依賴注入來管理Bean之間的依賴關係；我理解的依賴注入，就是你執行一個類A的時候，需要一些資料，資料可能是基本型別的一個String，也可能是一個自定義的類，比如需要另一個類B，那類B怎麼不通