spark概述與程式設計模型

阿新 • • 發佈：2020-10-19

spark快的原因
1.記憶體計算

2.DAG

spark shell已經初始化好了SparkContext，直接用sc呼叫即可

lineage 血統

RDD wide and narrow dependencies

窄依賴每個 RDD partition最多被一個子RDD partirion依賴

/sbin（system binary)放的都是涉及系統管理的命令。
有些系統裡面，普通使用者沒有執行這些命令的許可權。
有些系統裡面，普通使用者的PATH不包括/sbin

data.cache 資料放到記憶體中

spark-submit提交任務

scala程式碼

packagecn.chinahadoop.spark

importorg.apache.spark.{SparkContext,SparkConf}
importscala.collection.mutable.ListBuffer
importorg.apache.spark.SparkContext._

/**
*Createdbychenchaoon14-3-1.
*/
classAnalysis{

}

objectAnalysis{

defmain(args:Array[String]){

if(args.length!=2){
println("Usage:java-jarcode.jarfile_locationsave_location")
System.exit(0)
}



valconf=newSparkConf()
conf.setSparkHome("/data/software/crazyjvm/spark")


valsc=newSparkContext(conf)
valdata=sc.textFile(args(0))

data.cache

println(data.count)

data.filter(_.split('').length==3).map(_.split('')(1)).map((_,1)).reduceByKey(_+_)
.map(x=>(x._2,x._1)).sortByKey(false).map(x=>(x._2,x._1)).saveAsTextFile(args(1))
}

}

轉載於:https://blog.51cto.com/tianxingzhe/1700727

spark概述與程式設計模型

spark快的原因1.記憶體計算 2.DAG spark shell已經初始化好了SparkContext，直接用sc呼叫即可

muduo庫學習之常用程式設計模型04——常用程式設計模型與程序間通訊方式的選擇

技術標籤：多執行緒服務端程式設計C++UNIX環境高階程式設計東陽的學習筆記文章目錄

分散式系統系列學習筆記:MapReduce程式設計模型（附程式碼實現）

作者：小羊編輯：韓數大家好，我是韓數，本文的作者是我的好朋友小羊，本次呢，特地邀請小羊大神來撰寫大資料系列的高階教程，隨著大資料的發展，越來越多優秀的開源框架逐漸進入到我們開發者的生活中，包括hadoop，

深入瞭解Kafka【一】概述與基礎架構

1、概述 Kafka是一個分散式的、基於釋出訂閱的訊息系統，主要解決應用解耦、非同步訊息、流量削峰等問題。

NIO 程式設計模型 Reactor 幾種版本的簡單實現

Doug Lea 在 Scalable IO in Java 的 PPT 中描述了 Reactor 程式設計模型的思想，大部分 NIO 框架和一些中介軟體的 NIO 程式設計都與它一樣或是它的變體。本文結合 PPT 按照自己的理解整理而來，最終編寫了一個簡單的

Storm 系列（五）—— Storm 程式設計模型詳解

一、簡介下圖為 Strom 的執行流程圖，在開發 Storm 流處理程式時，我們需要採用內建或自定義實現 spout(資料來源) 和 bolt(處理單元)，並通過 TopologyBuilder 將它們之間進行關聯，形成 Topology。

JVM記憶體結構與記憶體模型

一、 Jvm記憶體結構模組分解 1. 程式計數器(執行緒私有) (1) 是什麼？程式計數器是當前執行緒所執行的位元組碼的行號指示器。

Docs-.NET-指南-非同步程式設計模式-APM：非同步程式設計模型 (APM)

ylbtech-Docs-.NET-指南-非同步程式設計模式-APM：非同步程式設計模型 (APM) 1.返回頂部

IO操作與IO模型

目錄一 IO操作本質二 IO模型1. BIO – 阻塞模式I/O2. NIO – 非阻塞模式I/O3. IO Multiplexing - I/O多路複用模型4. AIO – 非同步I/O模型5 select poll 和epoll三同步I/O與非同步I/O四併發-並行-同步-非同步-阻塞

Flink(三) Flink 程式設計模型之建立和載入資料集

Flink(三) Flink 程式設計模型之建立和載入資料集所有的 Flink 程式都是由三部分組成的： Source 、Transformation 和 Sink。

Python爬蟲的經典多執行緒方式，生產者與消費者模型

在之前的文章當中我們曾經說道，在多執行緒併發的場景當中，如果我們需要感知執行緒之間的狀態，交換執行緒之間的資訊是一件非常複雜和困難的事情。因為我們沒有更高階的系統許可權，也沒有上帝視角，很難知道目前執

spark安裝與使用（入門）

一：在linux下安裝java環境（自行安裝jdk）二：安裝Scala2.9.3 $ tar -zxf scala-2.9.3.tgz

java --- IO/NIO介紹，網路程式設計模型

1、阻塞I/O模型　　阻塞I/O模型是常見的I/O模型，在讀寫資料時客戶端會發生阻塞。阻塞I/O模式的工作流程為：當用戶發出I/O請求之後，核心會檢查資料是否就緒，此時使用者執行緒會一直阻塞等待記憶體資料就緒，在記憶

大資料實戰（八十一）：電商數倉（六十五）安全之Kerberos安全認證（一）概述與安裝

1 Kerberos概述 1.1 什麼是Kerberos Kerberos是一種計算機網路授權協議，用來在非安全網路中，對個人通訊以安全的手段進行身份認證。這個詞又指麻省理工學院為這個協議開發的一套計算機軟體。軟體設計上採用客戶端

Cypher 概述與基本語法

1.1 Cypher概述 Cypher是什麼 Cypher是一種宣告式圖資料庫查詢語言，它具有豐富的表現力，能高效地查詢和更新圖資料。

Java學習總結（一）—— Java概述與環境搭建

Java學習總結（一）—— Java概述與環境搭建開篇 Java學習總結系列是自己再次學習java的梳理與記錄，讀研期間更多的是使用python做深度學習等相關的研究，時間久了發現java很多的知識都已忘卻。

基於Python的Spark Streaming+Kafka程式設計實踐

說明 Spark Streaming的原理說明的文章很多，這裡不做介紹。本文主要介紹使用Kafka作為資料來源的程式設計模型,編碼實踐,以及一些優化說明

RabbitMQ安裝與訊息模型

RabbitMQ安裝與訊息模型通過docker安裝rabbitmq #拉起映象-management帶控制檯 docker pull rabbitmq:management

為什麼現代系統需要一個新的程式設計模型

akka版本2.6.9 版權宣告：本文為博主原創文章，未經博主允許不得轉載。 actor模型是Carl Hewitt在幾十年前提出的，作為在高效能網路中並行處理的一種方法(當時還沒有這種環境)。今天，硬體和基礎設施的

大資料快速入門（05）：MapReduce 程式設計模型賞析

一、Hadoop 誕生的**故事（上圖是 Doug Cutting，hadoop 之父） 1985年，Cutting 畢業於美國斯坦福大學。

spark概述與程式設計模型

相關推薦