六.SparkSQL之DataFrame操作例項實戰API

阿新 • • 發佈：2019-02-06

前面已經說過DataFrame的基本API操作,接下來就講下實際開發過程中的應用,首先需要準備一個數據原始檔,以下面這種格式的資料(這種資料是可以清洗日誌得到的)
在這裡插入圖片描述

第一步: 例項實戰演示

import org.apache.spark.sql.SparkSession
object DataFrameCase {

def main(args: Array[String]){

val spark = SparkSession.builder().master("local[2]").appName("DataFrameCase").getOrCreate()

val rdd =spark.sparkContext.textFile("student.data")

//匯入隱式轉換函式
import spark.implicits._
//轉換成DataFrame  要加上轉義字元 \\ ,因為有一些特殊字元沒有轉義字元的話不識別
val student = rdd.map(_.split("\\|")).map(line => Student(line(0).toInt,line(1),line(2),line(3))).toDF()
//student2為了測試join方法
val student2 = rdd.map(_.split("\\|")).map(line => Student(line(0).toInt,line(1),line(2),line(3))).toDF()

student.show()

//使用show方法,預設顯示的是前20條,如果想看到更多需要在方法中加入Int型別的引數,
//同時,該方法在展示資料的時候有擷取的功能,長度過長會顯示…
//因此,想要顯示全部的話需要加上一個false引數,因為預設的是true就是擷取
student.show(30,false)

//顯示資料的前10行資料
student.take(10)
//顯示第一條資料 等同於 student.head(3)(顯示前三條資料)
student.first()
//過濾掉名字為空的資料
student.filter("name !='' OR name != 'NULL' " ).show

在這裡插入圖片描述

//找出名字以l開頭的人
student.filter(“SUBSTR(name,0,1)=‘l’”).show()

//查詢所有的內建函式
spark.sql(“show functions”).show(1000)

//按照名字排序操作
student.sort(student.col("name"))
//按照名字降序進行排列
student.sort(student.col("name").desc)

//佇列進行重新命名
student.select(student(“name”).as(“student_name”)).show()

//join操作
student.join(student2,student.col(“id”) === student2.col(“id”)).show()

spark.stop()
}
case class Student(id: Int,name: String, phone: String, email: String )
}

六.SparkSQL之DataFrame操作例項實戰API

前面已經說過DataFrame的基本API操作,接下來就講下實際開發過程中的應用,首先需要準備一個數據原始檔,以下面這種格式的資料(這種資料是可以清洗日誌得到的) 第一步: 例項實戰演示 import org.apache.spark.sql.SparkSes

Spark常用函式講解之Action操作+例項

RDD：彈性分散式資料集，是一種特殊集合 ‚ 支援多種來源 ‚ 有容錯機制 ‚ 可以被快取 ‚ 支援並行操作，一個RDD代表一個分割槽裡的資料集RDD有兩種操作運算元： Transformatio

Spark-SQL之DataFrame操作大全

　　Spark SQL中的DataFrame類似於一張關係型資料表。在關係型資料庫中對單表或進行的查詢操作，在DataFrame中都可以通過呼叫其API介面來實現。可以參考，Scala提供的DataFrame AP

Spark實戰(3) DataFrame基礎之行列操作和SQL

文章目錄行列操作SQL操作行列操作 df['age'] # I only get a column object df.select('age').show() # I get a datafram with a column that we could us

python自學筆記15之例項之繪圖、dataframe操作、讀寫csv，excle

用Python繪圖，藉助強大的numpy和matplotlib import numpy as np import matplotlib.pyplot as plt import pandas as pd x = np.linspace(0,1) y = np

Spark-Sql之DataFrame實戰詳解

集合 case 編程方式優化所表 register 操作數 print ava 1、DataFrame簡介：在Spark中，DataFrame是一種以RDD為基礎的分布式數據據集，類似於傳統數據庫聽二維表格，DataFrame帶有Schema元信息，即DataFram

pandas庫介紹之DataFrame基本操作

讀取excel 操作 pyplot 分組寫入 pos ner 結構此外怎樣刪除list中空字符？最簡單的方法：new_list = [ x for x in li if x != ‘‘ ] 今天是5.1號。這一部分主要學習pandas中基於前面兩種數據結構的基

pandas庫之DataFrame基本操作

轉自：http://www.jianshu.com/p/75f915cc5147 這一部分主要學習pandas中Series和DataFrame基本操作。

轉：神奇的python（六）之python的串列埠操作（pyserial）

https://blog.csdn.net/qq_14997473/article/details/80875722：Python學習筆記——串列埠配置以及傳送資料 https://blog.csdn.net/ubuntu14/article/details/75335106：python實現串列埠

SparkSQL 之 Shuffle Join 核心原理及應用深度剖析-Spark商業原始碼實戰

本套技術專欄是作者（秦凱新）平時工作的總結和昇華，通過從真實商業環境抽取案例進行總結和分享，並給出商業應用的調優建議和叢集環境容量規劃等內容，請持續關注本套部落格。版權宣告：禁止轉載，歡迎學習。QQ郵箱地址：[email protected]，如有任何商業交流，可隨時聯絡。

Selenium Java Web 自動化實踐總結（六）元素操作例項

先上介面和html程式碼，頁面包含按鈕，單選框，複選框，下拉框，輸入框這幾種頁面常用元素 html程式碼如下 <html> <head>演示用html</head> <body> <br><br><br>

大資料之Hadoop學習——動手實戰學習MapReduce程式設計例項

文章目錄一、MapReduce程式設計例項 1.自定義物件序列化需求分析報錯：Exception in thread "main" java.lang.IllegalArgumentExcept

SparkSQL中DataFrame與RDD互操作之一：反射方式

一.引言 Spark SQL支援兩種不同的方法將現有RDD轉換為資料集。第一種方法使用反射來推斷包含特定型別物件的RDD的模式。這種基於反射的方法可以使程式碼更簡潔，並且在編寫Spark應用程式時已經瞭解了模式，因此可以很好地工作。詳細資料參考 Da

【SpringMVC】9.REST風格的CRUD實戰（三）之新增操作

##注意！！！ URI：emp 請求方式：GET 顯示效果 ####新增員工資訊 URI：emp 請求方式：POST 顯示效果：完成新增，重定向到 list 頁面。 ##二、介面分析顯示頁面的URL都是emp，但是請求方式分別是GET和POS

【SpringMVC】10.REST風格的CRUD實戰（四）之刪除操作

注意！！！一、前情提要刪除操作 URL：emp/{id} 請求方式：DELETE 刪除後效果：對應記錄從資料表中刪除二、具體步驟 1.配置HiddenHttpMethodFilter 由於HTML只支援常見的Get和POST方法，而DELE

【SpringMVC】8.REST風格的CRUD實戰（二）之查詢操作

##注意！！！ URI：emps 請求方式：GET 顯示效果所以我們就圍繞這個需求來進行程式設計。 ##二、具體步驟 ###1.把Handler方法寫好 EmployeeHandler相關程式碼 package com.springmvc.cru

python學習筆記之基礎操作（六）生成器和迭代器

生成器總結語法上和函式類似：生成器函式幾乎和常規函式一樣，不同的又兩點，第一點是返回使用yield關鍵字，第二點是在連續邏輯內可以多次返回這是yield的特點決定的，yield會記住函式執行的位

Spark 入門實戰之最好的例項

轉載：https://www.ibm.com/developerworks/cn/opensource/os-cn-spark-practice1/ 搭建開發環境安裝 Scala IDE 搭建 Scala 語言開發環境很容易，Scala IDE 官網下載合適的版

PL/SQL遊標之顯示遊標操作例項講解

顯式遊標顯式遊標是程式設計師定義遊標獲得更多的控制權的上下文的區域。顯式遊標應在PL/SQL塊的宣告部分中定義。這是建立一個SELECT語句返回多行。建立顯式遊標語法是：CURSOR cursor_na

微信小程式之登入頁例項 —— 微信小程式實戰系列（5）

提供一個登入頁的案例，供同學們使用專案效果圖：目錄結構：圖片資源： name.png key.png loginLog.jpg login.wxml： <view c

六.SparkSQL之DataFrame操作例項實戰API

相關推薦