Spark實戰(4) DataFrame基礎之資料篩選

阿新 • • 發佈：2018-11-03

文章目錄

filter寫法一
filter寫法二
條件符號
獲取結果

filter寫法一

from pyspark.sql import SparkSession

spark = SparkSession.builder.appName('ops').getOrCreate()

df = spark.read.csv('appe_stock.csv',inferSchema = True, header = True)

df.printSchema()

df.show()

# The first way

df. 
filter("Close < 500").show() # 傳入一個條件

df.filter("Close < 500").select('Open').show()

df.filter("Close < 500").select(['Open','Close']).show()

filter寫法二

from pyspark.sql import SparkSession

spark = SparkSession.builder.appName('ops').getOrCreate()

df = spark.read.csv('appe_stock.csv',inferSchema = 
 True, header = True)

df.printSchema()

df.show()

# The second way

df.filter(df['Close'] < 500).select('Volume').show()
df.filter(df['Close'] < 200 and df['Open'] > 200).show() # wrong
df.filter((df['Close'] < 200) & (df['Open'] > 200)).show() # right

條件符號

# not operation
df.filter( 
(df['Close'] < 200) & ~(df['Open'] > 200)).show() # right

# equal operation
df.filter(df['Low'] == 197.16).show()

獲取結果

# if we want to save it, we could use collect()
result  = df.filter(df['Low'] == 197.16).collect()

# one row as many format
result[0].asDict()

# and then you could get specific attribute
result[0].asDict()['Volume']

Spark實戰(4) DataFrame基礎之資料篩選

文章目錄 filter寫法一 filter寫法二條件符號獲取結果 filter寫法一 from pyspark.sql import SparkSession spark = SparkSession.builder.app

Spark實戰(3) DataFrame基礎之行列操作和SQL

文章目錄行列操作SQL操作行列操作 df['age'] # I only get a column object df.select('age').show() # I get a datafram with a column that we could us

Spark實戰(5) DataFrame基礎之處理缺失值

Drop Missing Value from pyspark.sql import SparkSession spark = SparkSession.builder.appName('aggs').getOrCreate() df = spark.read.

Spark實戰(5) DataFrame基礎之GroupBy和Aggregate

groupBy() from pyspark.sql import SparkSession spark = SparkSession.builder.appName('aggs').getOrCreate() df = spark.read.csv('s

python開發基礎之資料型別、字元編碼、檔案操作

一、知識點１.身份運算：２.現在計算機系統通用的字元編碼工作方式：在計算機記憶體中，統一使用Unicode編碼，當需要儲存到硬碟或者需要傳輸的時候，就轉換為UTF-8編碼。用記事本編輯的時候，從檔案讀取的UTF-8字元被轉換為Unicode字元到記憶體裡，編輯完成後，儲存的時候再把Unicode轉

python基礎之資料視覺化matplotlib

資料視覺化圖示的繪製需要安裝matplotlib庫，安裝方法：cmd下pip install matplotlib，以及numpy庫，安裝法法：cmd下pip install numpy。使用numpy生產影象繪製需要的資料，如果已經有了資料可以讀取資料到陣

python之資料篩選和csv操作

　　本博主要總結DaraFrame資料篩選方法（loc,iloc,ix,at,iat），並以操作csv檔案為例進行說明 1. 資料篩選 a b c 0 0 2 4 1 6 8 10 2 12 14 16 3 18 20 22 4 24 26 2

MySQL基礎之資料管理與常用函式

一.MySQL資料操作 1.新增記錄 INSERT [INTO] tbl_name [(col_name,...)] {VALUE|VALUES}(VALUES...); 不指定欄位名稱

python基礎之資料型別

資料型別：基礎資料型別：整數：正負整數浮點數：也就是小數，一般用科學計數法表示，如：1.02e-12 布林值：True/False，其實就是整數，True=1, False=0 字串：用單引號或則雙引號引用的資料。空值：None，表示沒有物件，統一標準佔位

Android基礎之資料儲存（SharedPreference）

Android資料持久化是說在斷電後資料不會丟失，而根據儲存位置和實現方式一般有3種方式,這裡說sharedpreferences：一，sharedpreferences儲存該種方式是在應用獨有目錄data/data/[packgename]/shared_prefs/下

玩玩機器學習4——TensorFlow基礎之啟用函式

啟用函式（activation function）執行時啟用神經網路中某一部分神經元，將啟用資訊向後傳入下一層的神經網路。神經網路之所以能解決非線性問題（如語音、影象識別），本質上就是啟用函式加入了非線性因素，彌補了線性模型的表達力，把“啟用的神經元的特徵”通過

Java基礎之資料比較Integer、Short、int、short

基礎很重要，基礎很重要，基礎很重要。重要的事情說三遍。今天聊一聊Java的資料比較，這個範圍比較大，基礎型別的比較、引用型別的比較。前提： 1、Java和c#都提供自動裝箱和自動拆箱操作，何為自動裝箱，簡單點說就是將值型別轉換成為引用型別，自動拆箱就是將引用型別轉換成為值型別。並且我們還經常被教導，

Java多執行緒基礎之資料共享引發的“非執行緒安全”

例項變數與執行緒安全自定義執行緒類中的例項變數針對其他執行緒可以有共享與不共享之分，這在多個執行緒之間進行互動時是很重要的一個技術點。一、不共享資料的情況

python 基礎之資料持久化儲存

###資料持久化儲存 - 說明：持久化儲存方案，普通檔案、資料庫、序列化 - 示例： ```python import pickle class Person: def __init__(self, name, age): self.name = na

執行緒基礎之資料競爭與鎖

原文地址譯文地址譯者:Alpha ; 校對: 蘑菇街-小寶大多數現代多執行緒程式語言都可以避免順序一致性與效能之間的衝突，因為它們知道：順序一致性的問題是由於某些程式轉換引起的，例如我們的例子中交換了無關變數的訪問順序，這不會改變單執行緒程式的意圖，但是會改變多執行緒程式

第三篇：python基礎之資料型別與變數

一.變數 1 什麼是變數之宣告變數 #變數名=變數值 age=18 gender1='male' gender2='female' 2 為什麼要有變數變數作用：“變”=>變化，“量”=>計量/儲存狀態程式的執行本質是一系列狀態的變化，變數的目的就是用來儲存狀態，變數值的變化就

python基礎之資料型別與算術運算

一.python的編碼規範 1.分號：不要在行尾加分號，也不要使用分號將兩條命令放在同一行 2.行長度：一般情況下每行不要超過80個字元 3.括號：寧缺毋濫的使用括號 4.縮排：使用4個空格來縮排程式碼 5.空行：

NOI題解(1.4程式設計基礎之邏輯表示式與條件分支)

01:判斷數正負 #include "iostream" #include "math.h" #include "iomanip" /* */ using namespace std; int

【原創】大資料基礎之Spark（4）RDD原理及程式碼解析

一簡介 spark核心是RDD，官方文件地址：https://spark.apache.org/docs/latest/rdd-programming-guide.html#resilient-distributed-datasets-rdds官方描述如下：重點是可容錯，可並行處理 Spark r

Spark SQL and DataFrame Guide(1.4.1)——之DataFrames

ati been -m displays txt -a 版本 ava form Spark SQL是處理結構化數據的Spark模塊。它提供了DataFrames這樣的編程抽象。同一時候也能夠作為分布式SQL查詢引擎使用。 DataFrames D

Spark實戰(4) DataFrame基礎之資料篩選

文章目錄

filter寫法一

filter寫法二

條件符號

獲取結果

相關推薦