spark | 學習記錄: 啟動Scala、python
初學者,記錄學習spark的最基本東西,不忘記
在spark下啟動scala:
./bin/spark-shell
測試例子:
sc.parallelize(1 to 1000).count()
在spark中啟動python:
./bin/pyspark
測試例子:
sc.parallelize(range(1000)).count()
相關推薦
spark | 學習記錄: 啟動Scala、python
初學者,記錄學習spark的最基本東西,不忘記 在spark下啟動scala: ./bin/spark-shell 測試例子: sc.parallelize(1 to 1000).c
學習記錄:氣泡排序、選擇排序、快速排序的python實現
(1)氣泡排序:def bubbleSort(list): if(len(list) == 0): return for i in range(0,len(list) - 1 ): for j in range(0,len(li
spark學習記錄(十四、kafka)
一、簡介 kafka是一個高吞吐的分散式訊息佇列系統。特點是生產者消費者模式,先進先出(FIFO)保證順序,自己不丟資料,預設每隔7天清理資料。訊息列隊常見場景:系統之間解耦合、峰值壓力緩衝、非同步通訊。 Kafka架構是由producer(訊息生產者)、consumer(訊息消費者)
spark學習記錄(十二、Spark UDF&UDAF&開窗函式)
一、UDF&UDAF public class JavaExample { public static void main(String[] args) { SparkConf conf = new SparkConf(); conf.
spark學習記錄(十一、Spark on Hive配置)
新增依賴 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-hive_2.12</artifa
spark學習記錄(一、scala與java編寫wordCount比較)
新增依賴: <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.12<
Spark學習筆記:四、WordCount字頻統計入門程式(基於IntelliJ IDEA使用Scala+SBT)
一、環境準備: Ubuntu16.04 IDEA Ultimate(破解版、教育版) Java JDK 1.8 Hadoop2.7 (偽單機模式) Spark 2.1.0 Hadoop與Spark的安裝過程本文省略 二、IDEA + SBT
Linux 學習記錄:七、fdisk 分區工具
net 硬盤 code sta play 交互 技術 無法使用 編碼表 一、fdisk分區工具 fdisk 是來自 IBM 的老牌分區工具,支持絕大多數操作系統,幾乎所有的 Linux 發行版都裝有 fdisk,包括在 Linux 的 resuce 模式下依然能夠使用。
python學習筆記: range()函式、算數運算子“//”,迴圈while與for
range() 函式——可建立一個整數列表,一般用在 for 迴圈中,函式語法:range(start, stop[, step]) start: 計數從 start 開始。預設是從 0 開始。例如range(5)等價於range(0, 5); stop: 計數到 stop 結束,但
HTTP學習記錄:四、頭資訊(請求和響應)
學習資源主要為:@小坦克HTTP相關部落格 一、請求頭資訊(Request Header) 請求頭資訊包含比較多,如下: 1、Cache頭域 if-modified-Since 作用:把瀏覽器端快取頁面的最後修改時間傳送到伺服器去,伺服器會把這個時間與伺服器上的實際檔案的最後修改時間進行對比
spark學習記錄(二、RDD)
一、概念 RDD(Resilient Distributed Dataset)叫做彈性分散式資料集,是Spark中最基本的資料抽象,它代表一個不可變、可分割槽、裡面的元素可平行計算的集合。RDD具有資料流模型的特點:自動容錯、位置感知性排程和可伸縮性。RDD允許使用者在執行多個查詢時顯式地將工作
Python學習筆記:檔案操作、類基礎、派生與繼承入門
#檔案操作open、close 開啟一個檔案供讀寫 file = open(file, mode=xx) 用完之後一定要記得關閉
spark學習記錄(十三、SparkStreaming)
一、SparkStreaming簡介 SparkStreaming是流式處理框架,是Spark API的擴充套件,支援可擴充套件、高吞吐量、容錯的實時資料流處理,實時資料的來源可以是:Kafka, Flume, Twitter, ZeroMQ或者TCP sockets,並且可以使用高階功能的複雜
spark學習記錄(十、SparkSQL)
一、介紹 SparkSQL支援查詢原生的RDD。 RDD是Spark平臺的核心概念,是Spark能夠高效的處理大資料的各種場景的基礎。 能夠在Scala中寫SQL語句。支援簡單的SQL語法檢查,能夠在Scala中寫Hive語句訪問Hive資料,並將結果取回作為RDD使用。 D
spark學習記錄(八、廣播變數和累加器)
一、廣播變數 public class JavaExample { public static void main(String[] args) { SparkConf conf = new SparkConf(); conf.setMaster("
spark學習記錄(九、MasterHA和Spark shuffle)
一、zookeeper配置MasterHA 1.1修改conf下的spark-env.sh : export SPARK_DAEMON_JAVA_OPTS="-Dspark-deploy-recoveryMode=ZOOKEEPER -Dspark.deploy.zookee
spark學習記錄(七、二次排序和分組取TopN問題)
1.二次排序 例題:將兩列數字按第一列升序,如果第一列相同,則第二列升序排列 資料檔案:https://download.csdn.net/download/qq_33283652/10894807 將資料封裝成物件,對物件進行排序,然後取出value public class Se
spark學習記錄(六、基礎知識)
1.術語解釋 2.SparkCore和SparkSQL知識點思維導圖整理 https://download.csdn.net/download/qq_33283652/10890863 3.RDD的寬窄依賴 相同的key去同一個分割槽,但一個分割槽可以用不同的key
spark學習記錄(五、Spark基於資源排程管理器的提交模式)
一、Standalone(Spark自帶) 1.1 Standalone-client模式 提交命令: ./spark-submit --master spark://hadoop1:7077 --class org.apache.spark.examples.Spar
spark學習記錄(四、運算元(函式))
1.Transformations轉換運算元 Transformations類運算元是一類運算元(函式)叫做轉換運算元,如map,flatMap,reduceByKey等。Transformations運算元是延遲執行,也叫懶載入執行。 filter:過濾符合條件的記錄數,true保留