pyspark系列--dataframe基礎

阿新 • • 發佈：2019-02-01

dataframe基礎

1. 連線本地spark

import pandas as pd
from pyspark.sql import SparkSession

spark = SparkSession \
    .builder \
    .appName('my_first_app_name') \
    .getOrCreate()

2. 建立dataframe

# 從pandas dataframe建立spark dataframe
colors = ['white','green','yellow','red','brown','pink' 
]
color_df=pd.DataFrame(colors,columns=['color'])
color_df['length']=color_df['color'].apply(len)

color_df=spark.createDataFrame(color_df)
color_df.show()

3. 檢視欄位型別

# 檢視列的型別 ，同pandas
color_df.dtypes

# [('color', 'string'), ('length', 'bigint')]

4. 檢視列名

# 檢視有哪些列 ，同pandas
color_df.columns

# ['color', 'length']

5. 檢視行數

# 行數
color_df.count()

# 如果是pandas
len(color_df)

6. 重新命名列名

# dataframe列名重新命名
# pandas
df=df.rename(columns={'a':'aa'})

# spark-1
# 在建立dataframe的時候重新命名
data = spark.createDataFrame(data=[("Alberto", 2), ("Dakota", 2)],schema=['name','length'])
data.show()
data.printSchema()

# spark-2 

# 使用selectExpr方法
color_df2 = color_df.selectExpr('color as color2','length as length2')
color_df2.show()

# spark-3
# withColumnRenamed方法
color_df2 = color_df.withColumnRenamed('color','color2')\
                    .withColumnRenamed('length','length2')
color_df2.show()

# spark-4
# alias 方法
color_df.select(color_df.color.alias('color2')).show()

7. 選擇和切片篩選

這個應該是dataframe最常用最重要的操作了。

# 1.列的選擇
# 選擇一列的幾種方式，比較麻煩，不像pandas直接用df['cols']就可以了
# 需要在filter,select等操作符中才能使用
color_df.select('length').show()
color_df.select(color_df.length).show()
color_df.select(color_df[0]).show()
color_df.select(color_df['length']).show()
color_df.filter(color_df['length']>=4).show()   # filter方法

# 2.選擇幾列的方法
color_df.select('length','color').show()
# 如果是pandas，似乎要簡單些
color_df[['length','color']]

# 3.多列選擇和切片
color_df.select('length','color') \
        .select(color_df['length']>4).show()

# 4.between 範圍選擇
color_df.filter(color_df.length.between(4,5) )\
        .select(color_df.color.alias('mid_length')).show()


# 5.聯合篩選
# 這裡使用一種是 color_df.length, 另一種是color_df[0]
color_df.filter(color_df.length>4)\
        .filter(color_df[0]!='white').show()

# 6.filter執行類SQL
color_df.filter("color='green'").show()

color_df.filter("color like 'b%'").show()

# 7.where方法的SQL
color_df.where("color like '%yellow%'").show()

# 8.直接使用SQL語法
# 首先dataframe註冊為臨時表，然後執行SQL查詢
color_df.createOrReplaceTempView("color_df")
spark.sql("select count(1) from color_df").show()

8. 刪除一列

# 刪除一列
color_df.drop('length').show()

# pandas寫法
df.drop(labels=['a'],axis=1)

9. 增加一列

from pyspark.sql.functions import lit
df1.withColumn('newCol', lit(0)).show()

10. 轉json

# dataframe轉json，和pandas很像啊
color_df.toJSON().first()

11. 排序

# pandas的排序
df.sort_values(by='b')

# spark排序
color_df.sort('color',ascending=False).show()

# 多欄位排序
color_df.filter(color_df['length']>=4)\
        .sort('length', 'color', ascending=False).show()

# 混合排序
color_df.sort(color_df.length.desc(), color_df.color.asc()).show()

# orderBy也是排序，返回的Row物件列表
color_df.orderBy('length','color').take(4)

12. 缺失值

# 1.生成測試資料
import numpy as np
import pandas as pd

df=pd.DataFrame(np.random.rand(5,5),columns=['a','b','c','d','e'])\
    .applymap(lambda x: int(x*10))
df.iloc[2,2]=np.nan

spark_df = spark.createDataFrame(df)
spark_df.show()

# 2.刪除有缺失值的行
df2 = spark_df.dropna()
df2.show()

# 3.或者
spark_df=spark_df.na.drop()

pyspark系列--dataframe基礎

dataframe基礎 1. 連線本地spark import pandas as pd from pyspark.sql import SparkSession spark = SparkSession \ .builder

pyspark系列--統計基礎

統計基礎 1. 簡單統計在資料分析中，基本統計分析已經能滿足95%的需求了，什麼是基本統計分析呢，就是均值，方差，標準差，抽樣，卡方，相關係數，協方差，假設檢驗等。如果你的需求超出了這個範疇，我想你應該從事很高深的工作吧，或者你在一個很厲害

培訓系列11-spark dataframe 基礎操作

// dataframe is the topic 一、獲得基礎資料。先通過rdd的方式獲得資料 val ny= sc.textFile("data/new_york/")val header=ny.firstval filterNY =ny.filter(listing=>{ listing.sp

pyspark系列--讀寫dataframe

目錄 1. 連線spark from pyspark.sql import SparkSession spark=SparkSession \ .builder \ .appName('my_first_

sql系列（基礎篇）-前言課前補充知識

ng- 2.0 .sql nbsp 值範圍 lease size cte file 前言課前補充知識 Number(p,s) Number(p,s)：數字類型，p 表示數字的有效長度(從數字的左邊第 1 位不為 0 的開始算起，直到最右邊的長度。取值範圍 0~38

SQL系列學習基礎數據

es2017 teacher leo photo var 末尾 json fault arr //班主任表 CREATE TABLE [dbo].[teacher]( [id] [int] IDENTITY(1,1) NOT NULL primary key, [name

Java基礎系列之基礎數據類型

四種分數系列數字好處 java基礎 bsp style 情況在Java中，一共有8種基本類型，其中有四種整型，兩種浮點型，還有一個表示unicode編碼的字符單元的字符類型char和1種用於表示真假值的boolean類型。在這裏介紹一下有種在項目比較常用

C#系列之基礎知識點（一）

命名規則系列字符註釋編輯器小數類型智能規則解釋知識點一：VS啟動方法第一種：雙擊圖標第二種：window+R——調出cmd，輸入devenu properties 屬性的意思知識點二:後綴名解釋 .sln 解決方案文件：包含整個解決方案的信息 .

zookeeper 入門系列-理論基礎 – zab 協議

prefix 什麽 cast 復雜度通信隊列 xid zab協議合並上一章討論了paxos算法，把paxos推到一個很高的位置。但是，paxos有沒有什麽問題呢？實際上，paxos還是有其自身的缺點的： 1. 活鎖問題。在base-paxos算法中，不存在leade

MyBatis 框架系列之基礎初始

trace 使用下一個 utf statement 公眾號全局配置註冊例如 1、什麽是 MyBatis MyBatis 本是 apache 的一個開源項目 iBatis，後改名為 MyBatis，它是一個優秀的持久層框架，對 jdbc 的操作數據庫的過程進行封裝

docker系列之基礎命令-1

列表 http port ML 配置狀態如何 art commit 1.docker基礎命令 docker images 顯示鏡像列表 docker ps 顯示容器列表 docker run IMAGE_ID 指定鏡像, 運行一個容器 docker start/stop

docker系列之基礎命令-2

doc tar 維護標簽 mit font ESS star 分享圖片一.查看本地鏡像 docker images 二.需要基礎的鏡像兩種方式 1.docker pull centos 可以直接拉起鏡像 2.直接用xshell導入就行，docker 　load -i

《Pandas CookBook》---- DataFrame基礎操作

vertical stat dir vertica expr axis int avi joseph Pandas基礎操作簡書大神SeanCheney的譯作，我作了些格式調整和文章目錄結構的變化，更適合自己閱讀，以後翻閱是更加方便自己查找吧 import pandas a

（4）pyspark中dataframe的清理操作

tab tin eight 存在 ast wid column idt src 1、交叉表（crosstab)： pandas中也有，常和pivot_table比較。查看家庭ID與評分的交叉表： 2、處理缺失值：fillna withColumn：新增一列數據 ca

docker學習系列-jdk基礎映象製作

準備一臺安裝有docker服務的機器 1.編輯Dockerfile vim Dockerfile FROM centos:latest ADD ./jdk-8u141-linux-x64.tar.gz /usr/local ENV JAVA_HOM

Spark實戰(4) DataFrame基礎之資料篩選

文章目錄 filter寫法一 filter寫法二條件符號獲取結果 filter寫法一 from pyspark.sql import SparkSession spark = SparkSession.builder.app

python語言 pyspark中dataframe修改列名

這裡給出在spark中對dataframe修改列名。 df = sqlContext.read.parquet("/user/使用者名稱/123.parquet") ##########df資料例項 linkPh ph 123

pyspark中dataframe讀寫資料庫

本文只討論spark藉助jdbc讀寫mysql資料庫一，jdbc 想要spark能夠從mysql中獲取資料，我們首先需要一個連線mysql的jar包，mysql-connector-java-5.1.40-bin.jar 將jar包放入虛擬機器中合適的位置，比如我放置在/home/sx

【黑帽SEO系列】基礎知識

【黑帽SEO系列】基礎知識發表於 2016-10-09 | 分類於黑產研究 | 熱度 3320 ℃ 　 SEO全稱為搜尋引擎優化，是指通過站內優化、站外優化等方式，提升搜尋引擎收錄排名。既然有SEO技術，便會有相應的從業人員，他們被稱為白帽SEO，專指通過公正SEO手法，幫助提升站點排名

一、redis系列之基礎知識與centos下環境搭建

oracle數據庫但是 sorted 插入執行映射放松適合 oracl 1. Redis 與其他 key - value 緩存產品有以下三個特點： Redis支持數據的持久化，可以將內存中的數據保持在磁盤中，重啟的時候可以再次加載進行使用。 Redis不僅僅支持

pyspark系列--dataframe基礎

1. 連線本地spark

2. 建立dataframe

3. 檢視欄位型別

4. 檢視列名

5. 檢視行數

6. 重新命名列名

7. 選擇和切片篩選

8. 刪除一列

9. 增加一列

10. 轉json

11. 排序

12. 缺失值

相關推薦