Spark SQL讀取資料來源建立DataFrame（一）

阿新 • • 發佈：2019-02-11

讀取文字檔案建立DataFrame

在spark2.0之後，SparkSession 封裝了 SparkContext，SqlContext，通過SparkSession可以獲取到SparkConetxt,SqlContext物件。

1、建立本地檔案並上傳hdfs

有三列，分別是id、name、age，用空格分隔

vi person.txt

1 zhangsan 20
2 lisi 29
3 wangwu 25
4 zhaoliu 30
5 tianqi 35
6 kobe 40

上傳到hdfs

hdfs dfs -put person.txt /

2、讀取資料並分割

配置的預設讀取hdfs

啟動shell

spark-shell --master local[2]

讀取資料，將每一行的資料使用列分隔符分割先執行

val lineRDD= sc.textFile("/person.txt").map(_.split(" "))

3、定義樣例類

case class Person(id:Int, name:String, age:Int)

這裡寫圖片描述

4、RDD和樣例類關聯

val personRDD = lineRDD.map(x => Person(x(0).toInt, x(1), x(2).toInt))

這裡寫圖片描述

5、RDD轉換為DataFrame

val personDF  
= personRDD.toDF

這裡寫圖片描述

6、對DataFrame操作

personDF.show

這裡寫圖片描述

personDF.printSchema

這裡寫圖片描述

7、通過SparkSession構建DataFrame

使用spark-shell中已經初始化好的SparkSession物件spark生成DataFrame

val dataFrame=spark.read.text("/person.txt")

dataFrame.show

這裡寫圖片描述

喜歡就點贊評論+關注吧

這裡寫圖片描述

感謝閱讀，希望能幫助到大家，謝謝大家的支援！

Spark SQL讀取資料來源建立DataFrame（一）

讀取文字檔案建立DataFrame 在spark2.0之後，SparkSession 封裝了 SparkContext，SqlContext，通過SparkSession可以獲取到SparkConetxt,SqlContext物件。 1、建立本地檔案並上傳h

【轉載】Apache Spark Jobs 性能調優（一）

功能 dso brush 數據結構 nsf 必須 char dal 開始當你開始編寫 Apache Spark 代碼或者瀏覽公開的 API 的時候，你會遇到各種各樣術語，比如 transformation，action，RDD 等等。了解到這些是編寫 Spark 代碼

SQL SERVER的鎖機制（一）——概述（鎖的種類與範圍）

row 定性針對共享互斥 drop 問題停止共享鎖 SQL SERVER的鎖機制系列： SQL SERVER的鎖機制（一）——概述（鎖的種類與範圍） SQL SERVER的鎖機制（二）——概述（鎖的兼容性與可以鎖定的資源） SQL SERVER的鎖機制（三）

SQL數據查詢語句（一）

delete 紅色 cnblogs col mage 列名 http font 根據本文所用數據庫為db_Test，數據表為Employee 一.SELECT語句基本結構語句語法簡單歸納為： SELECT select_list [INTO new_table_name

day20 java 語言中的讀取寫入數據（一）

day20 java 語言中的讀取寫入數據（一）day20 java 語言中的讀取寫入數據（一）一、io概述 io數據流的讀寫功能，在實際的生活中也很常見，比如文件的上傳、下載，日誌的自動更新等都與io讀寫密切相關。io又被分為了讀取數據和寫入數據兩個大的功能。下面就來看看讀取數據的幾種類。二、讀取

我的SQL筆記&一些練習題（一）

eat sid UNC score server 隔離性回退 sql命令 sql數據庫 Oracle 數據庫使用的端口為：1521在Windows平臺下需保證 Oracle server xe 和 Oraclelistener 服務正常運行才可以連接到數據庫MySQL數據

Java程式設計師從笨鳥到菜鳥之（一百）sql注入攻擊詳解（一）sql注入原理詳解

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

Spark之效能調優總結（一）

總結一下spark的調優方案：一、效能調優　　1、效能上的調優主要注重一下幾點：　　　　Excutor的數量　　　　每個Excutor所分配的CPU的數量　　　　每個Excutor所能分配的記憶體量　　　　Driver端分配的記憶體數量　　2、如何分配資源　　　　在生產環境中，

Android資料持久化—SQLite資料庫-建立資料庫（一）

在編寫軟體的過程中，我們通常會在移動裝置的本地儲存一些資料，這些資料如何儲存，就是使用到一個android 端的輕量級資料庫SQLite，在資料儲存大家都應該使用過SharedPreferences，這個東西只適合儲存一些簡單的資料，但是到了

Mysql SQL查詢效能調優（一）

MYSQL效能調優 varchar型別的欄位在編寫SQL時，一定要加單引號，否則如果該欄位是索引的話，則不起作用，在大數量查詢時，效能很差 PS：大坑建立必要的索引提高SQL查詢效能主鍵（聚集）索引、非聚集索引（普通索引，唯一索引，全

用MyEclipse JPA建立專案（一）

MyEclipse 3.15 Style——線上購買低至75折！火爆開搶>> 本教程介紹了MyEclipse中的一些基於JPA的功能。閱讀本教程時，瞭解JPA和實體對映如何與註釋一起工作的基本概念將會很有幫助。在本教程中，您將學習如何：為JPA設定

Spark之Scala學習之路（一）

Scala與Java的關係：一：它們都是基於JVM的，但Scala可以呼叫Java的任何功能，比如Spark執行在Hadoop上，它可以呼叫Hadoop上的一切功能。二：你可以認為Scala它是一個升級版的Java，因為Scala它本身是一門支援面向物

Apache 流框架 Flink，Spark Streaming，Storm對比分析（一）

本文由網易雲釋出1.Flink架構及特性分析Flink是個相當早的專案，開始於2008年，但只在最近才得到注意。Flink是原生的流處理系統，提供high level的API。Flink也提供 API來像Spark一樣進行批處理，但兩者處理的基礎是完全不同的。Flink把

SQL Server資料庫常見問題（一）

1.當要刪除某個表中的索引時，出現不允許對索引 ‘grade.pk_grade’ 顯式地使用 DROP INDEX。該索引正用於 PRIMARY KEY 約束的強制執行。可使用如下語句完成刪除索引： alter table grade

PL/SQL developer基礎語法學習（一）

簡介： - PL/SQL是Oracle下的指令碼開發語言，是為了解決資料進行復雜處理而設計的。 - 在SQL語言的基礎之上添加了第三代語言的迴圈、分支等結構 - 使用PL/SQL可以帶來一定的好處，即效率的提高——– pl/s

vue+webpack4建立應用（一）練習

新建資料夾webpacktest 初始化專案 npm init 會出現選項練習專案一律預設即可，會生成package.json 安裝 npm i webpack vue vue-loader 會出現WARN npm WARN [email pr

【Python實戰】Pandas：讓你像寫SQL一樣做資料分析（一）

1. 引言 Pandas是一個開源的Python資料分析庫。Pandas把結構化資料分為了三類： Series，1維序列，可視作為沒有column名的、只有一個column的DataFrame； DataFrame，同Spark SQL中的DataFrame一樣，其概念來自於R語言，為多column並sch

【JAVA秒會技術之玩轉SQL】MySQL優化技術（一）

MySQL優化技術（一）開發的路上，總會碰到一些老系統，越用越慢。“慢”的原因也許有很多，但是，博主個人覺得，資料庫的設計和sql語句寫的好壞，對系統效率的影響是最直接，最顯而易見的！所以，學習一下MySQL的優化，還是很有必要的。當然，博主能力有限，沒那

hadoop spark 大資料叢集環境搭建（一）

大資料雲端計算現在比較熱門，未來的一個發展方向，在此分享下技術,有不對的地方歡迎指出 1、軟體環境(會分享到網盤) centos6.5 jdk1.7 hadoop2.4.1(這裡只用到hdfs,namenode不走ha) zookeeper3.4.5 spark1.3.0

Unity 3D 建立Mesh（一）

using UnityEngine; using System.Collections; /*僅僅建立Mesh * * */ public class CreatMesh : MonoBehaviour { private GameObject mMesh; private Mate

Spark SQL讀取資料來源建立DataFrame（一）

讀取文字檔案建立DataFrame

1、建立本地檔案並上傳hdfs

2、讀取資料並分割

3、定義樣例類

4、RDD和樣例類關聯

5、RDD轉換為DataFrame

6、對DataFrame操作

7、通過SparkSession構建DataFrame

相關推薦