pyspark系列--統計基礎

阿新 • • 發佈：2019-01-05

統計基礎

1. 簡單統計

在資料分析中，基本統計分析已經能滿足95%的需求了，什麼是基本統計分析呢，就是均值，方差，標準差，抽樣，卡方，相關係數，協方差，假設檢驗等。如果你的需求超出了這個範疇，我想你應該從事很高深的工作吧，或者你在一個很厲害的公司或者很牛逼的部門，那麼你也不用擔心spark做不到，因為有人會幫你做到的。

spark dataframe的基本統計函式已經包含在 pyspark.sql.functions 中，類似的，dataframe本身也有一些統計方法。

2. 隨機數

# 基於dataframe生成相同行數的隨機數
from pyspark.sql.functions import 
 rand, randn  # 均勻分佈和正太分佈函式

color_df.select(rand(seed=10).alias("uniform"), 
                randn(seed=27).alias("normal"))\
    .show()

# 或者隨機生成指定行數的dataframe
df = spark.range(0, 10).withColumn('rand1', rand(seed=10)) \
                       .withColumn('rand2', rand(seed=27))
df.show()

3. 四捨五入

from 
 pyspark.sql.functions import round
df = spark.createDataFrame([(2.5,)], ['a'])

df.select(round('a', 0).alias('r')).show()

4. 抽樣

from pyspark.sql
spark = SparkSession \
    .builder \
    .appName('my_first_app_name') \
    .getOrCreate()

# 生成測試資料
colors = ['white','green','yellow','red','brown' 
,'pink']
color_df=pd.DataFrame(colors,columns=['color'])
color_df['length']=color_df['color'].apply(len)

# 抽樣
sample1 = color_df.sample(
    withReplacement=False, # 無放回抽樣
    fraction=0.6,
    seed=1000)  
sample1.show()

5. 描述性統計

# dataframe本身也有基本統計的方法，和pandas一致
import numpy as np
import pandas as pd

# 1.生成測試資料
df=pd.DataFrame(np.random.rand(5,5),columns=['a','b','c','d','e']).\
    applymap(lambda x: int(x*10))
df.iloc[2,2]=np.nan

spark_df=spark.createDataFrame(df)
spark_df.show()

# 2.描述性統計資訊
spark_df.describe().show()

# 3.針對一個欄位的統計資訊
spark_df.describe('a').show()

6. 最大值最小值

from pyspark.sql.functions import min, max
color_df.select(min('uniform'), max('uniform')).show()

7. 均值方差

均值方差標準差前面提到過，這裡再複習一下

from pyspark.sql.functions import mean, stddev  # 同樣是在function裡面

color_df.select(mean('uniform').alias('mean'),
                stddev('uniform').alias('stddev'))\
    .show()

8. 協方差與相關係數

# 協方差
df.stat.cov('rand1','rand2')

# 樣本協方差
from pyspark.sql.functions import covar_pop
df.agg(covar_samp("rand1", "rand1").alias('new_col')).collect()

# 相關係數
df.stat.corr('rand1', 'rand2')

9. 交叉表(列聯表)

# 交叉列表
# Create a DataFrame with two columns (name, item)
names = ["Alice", "Bob", "Mike"]
items = ["milk", "bread", "butter", "apples", "oranges"]
df = spark.createDataFrame([(names[i % 3], items[i % 5]) for i in range(100)], ["name", "item"])
df.show(5)

df.stat.crosstab("name", "item").show()
# +---------+------+-----+------+----+-------+
# |name_item|apples|bread|butter|milk|oranges|
# +---------+------+-----+------+----+-------+
# |      Bob|     6|    7|     7|   6|      7|
# |     Mike|     7|    6|     7|   7|      6|
# |    Alice|     7|    7|     6|   7|      7|
# +---------+------+-----+------+----+-------+

10. 頻繁專案元素

# 找出現次數最多的元素(頻數分佈)
df = spark.createDataFrame([(1, 2, 3) if i % 2 == 0 else (i, 2 * i, i % 4) for i in range(100)],
                           ["a", "b", "c"])
df.show(10)

# 下面的程式碼找到每列出現次數佔總的40%以上頻繁專案
df.stat.freqItems(["a", "b", "c"], 0.4).show()
# +-----------+-----------+-----------+
# |a_freqItems|b_freqItems|c_freqItems|
# +-----------+-----------+-----------+
# |    [23, 1]|    [2, 46]|     [1, 3]|
# +-----------+-----------+-----------+
# “23”和“1”是列“a”的頻繁值

11. 其他數學函式

通過觀察pyspark.sql.functions模組，發現還有很多常用的好用的函式。

11.1. 數學函式

函式	作用
log	對數
log2	以2為底的對數
factorial	階乘

12. 元素去重計數

from pyspark.sql import functions as func

df = spark.createDataFrame([(1, 2, 3) if i % 2 == 0 else (i, 2 * i, i % 4) for i in range(10)],
                           ["a", "b", "c"])
# 注意agg函式的使用
df.agg(func.countDistinct('a')).show()

13. 聚合函式 grouping

沒看懂，誰看懂了告訴我。

Aggregate function: indicates whether a specified column in a GROUP BY list is aggregated
or not, returns 1 for aggregated or 0 for not aggregated in the result set.

from pyspark.sql import functions as func

df.cube("name").agg(func.grouping("name"), func.sum("age")).orderBy("name").show()

# +-----+--------------+--------+
# | name|grouping(name)|sum(age)|
# +-----+--------------+--------+
# | null|             1|       7|
# |Alice|             0|       2|
# |  Bob|             0|       5|
# +-----+--------------+--------+

14. 聚合函式 grouping_id

同樣沒看懂。

Aggregate function: returns the level of grouping, equals to

(grouping(c1) << (n-1)) + (grouping(c2) << (n-2)) + ... + grouping(cn)

note:: The list of columns should match with grouping columns exactly, or empty (means all the grouping columns).

df.cube("name").agg(grouping_id(), sum("age")).orderBy("name").show()
# +-----+-------------+--------+
# | name|grouping_id()|sum(age)|
# +-----+-------------+--------+
# | null|            1|       7|
# |Alice|            0|       2|
# |  Bob|            0|       5|
# +-----+-------------+--------+

15. 分組排序

from pyspark.sql.types import IntegerType, StringType
from pyspark.sql import Window
from pyspark.sql.functions import *
rdd = sc.parallelize([(1,'Alice', 18),(2,'Andy', 19),(3,'Bob', 17),(1,'Justin', 21),(1,'Cindy', 20)])
schema = StructType([
    StructField("id", IntegerType(), True),
    StructField("name", StringType(), True),
    StructField("age", IntegerType(), True)
])

df = spark.createDataFrame(rdd, schema)
# 按照每個組內的年齡排序，組外的分佈並不管
df.withColumn("rn", row_number().over(Window.partitionBy("id").orderBy("age"))).show()
# +---+------+---+---+
# | id|  name|age| rn|
# +---+------+---+---+
# |  1| Alice| 18|  1|
# |  1| Cindy| 20|  2|
# |  1|Justin| 21|  3|
# |  3|   Bob| 17|  1|
# |  2|  Andy| 19|  1|
# +---+------+---+---+

# 按照年齡排序，組外面分佈也管
df.withColumn("rn", row_number().over(Window.partitionBy("id").orderBy("age"))).orderBy("age").show()
# +---+------+---+---+
# | id|  name|age| rn|
# +---+------+---+---+
# |  3|   Bob| 17|  1|
# |  1| Alice| 18|  1|
# |  2|  Andy| 19|  1|
# |  1| Cindy| 20|  2|
# |  1|Justin| 21|  3|
# +---+------+---+---+

pyspark系列--統計基礎

統計基礎 1. 簡單統計在資料分析中，基本統計分析已經能滿足95%的需求了，什麼是基本統計分析呢，就是均值，方差，標準差，抽樣，卡方，相關係數，協方差，假設檢驗等。如果你的需求超出了這個範疇，我想你應該從事很高深的工作吧，或者你在一個很厲害

pyspark系列--dataframe基礎

dataframe基礎 1. 連線本地spark import pandas as pd from pyspark.sql import SparkSession spark = SparkSession \ .builder

【數理統計基礎】 05 - 回歸分析

關於以及區間估計否則 del 相互不同之處最小二乘研究　　參數估計和假設檢驗是數理統計的兩個基礎問題，它們不光運用於常見的分布，還會出現在各種問題的討論中。本篇開始研究另一大類問題，就是討論多個隨機變量之間的關系。現實生活中的數據雜亂無章，夠挖掘出各種變量之間

sql系列（基礎篇）-前言課前補充知識

ng- 2.0 .sql nbsp 值範圍 lease size cte file 前言課前補充知識 Number(p,s) Number(p,s)：數字類型，p 表示數字的有效長度(從數字的左邊第 1 位不為 0 的開始算起，直到最右邊的長度。取值範圍 0~38

SQL系列學習基礎數據

es2017 teacher leo photo var 末尾 json fault arr //班主任表 CREATE TABLE [dbo].[teacher]( [id] [int] IDENTITY(1,1) NOT NULL primary key, [name

Java基礎系列之基礎數據類型

四種分數系列數字好處 java基礎 bsp style 情況在Java中，一共有8種基本類型，其中有四種整型，兩種浮點型，還有一個表示unicode編碼的字符單元的字符類型char和1種用於表示真假值的boolean類型。在這裏介紹一下有種在項目比較常用

C#系列之基礎知識點（一）

命名規則系列字符註釋編輯器小數類型智能規則解釋知識點一：VS啟動方法第一種：雙擊圖標第二種：window+R——調出cmd，輸入devenu properties 屬性的意思知識點二:後綴名解釋 .sln 解決方案文件：包含整個解決方案的信息 .

【概率論與數理統計】小結7 - 統計基礎概念

mooc 基本概念其他信息相等們的哈工大參數子集註：概率論方面就暫時告一段落，終於可以說說統計方面的事情了。如果說概率論中主要是研究隨機變量的方法學和理論模型，那麽統計學就是利用概率論這一強大的工具來研究具有隨機性的現象（結果的不確定性）。而研究這些隨機現象

zookeeper 入門系列-理論基礎 – zab 協議

prefix 什麽 cast 復雜度通信隊列 xid zab協議合並上一章討論了paxos算法，把paxos推到一個很高的位置。但是，paxos有沒有什麽問題呢？實際上，paxos還是有其自身的缺點的： 1. 活鎖問題。在base-paxos算法中，不存在leade

MyBatis 框架系列之基礎初始

trace 使用下一個 utf statement 公眾號全局配置註冊例如 1、什麽是 MyBatis MyBatis 本是 apache 的一個開源項目 iBatis，後改名為 MyBatis，它是一個優秀的持久層框架，對 jdbc 的操作數據庫的過程進行封裝

docker系列之基礎命令-1

列表 http port ML 配置狀態如何 art commit 1.docker基礎命令 docker images 顯示鏡像列表 docker ps 顯示容器列表 docker run IMAGE_ID 指定鏡像, 運行一個容器 docker start/stop

docker系列之基礎命令-2

doc tar 維護標簽 mit font ESS star 分享圖片一.查看本地鏡像 docker images 二.需要基礎的鏡像兩種方式 1.docker pull centos 可以直接拉起鏡像 2.直接用xshell導入就行，docker 　load -i

概率論與數理統計基礎<1>:隨機事件與隨機變量

array 我們存在表示樣本穩定 \n 根據連續函數 Part1. 隨機事件 1-1.隨機試驗隨機試驗:可以在相同條件下重復進行，每次試驗的結果不止一個，事先知道所有可能的結果但不確定是哪一個的試驗。舉例：重復的拋出一枚均勻的硬幣就是一個隨機試驗，事先知道它的

docker學習系列-jdk基礎映象製作

準備一臺安裝有docker服務的機器 1.編輯Dockerfile vim Dockerfile FROM centos:latest ADD ./jdk-8u141-linux-x64.tar.gz /usr/local ENV JAVA_HOM

《從零進階！資料分析的統計基礎》讀書筆記

第一章：資料分析概論：本章主要介紹資料分析的概念、分析步驟和分析方法，介紹如何在Excel2013年安裝資料分析工具，以及如何安裝SPSS資料分析軟體，這是在後續課程中進行資料分析的基礎。 1.1資料分析定義 a.目標：資料分析的關鍵在於設立目標，有針對性 b.方法：資料分析的方法包括統計分析和資料

統計基礎知識

憑藉記憶和百度複習一下以前學的，不斷更 1：統計學三大分佈，呵呵，沒有正態，F，T，卡方分佈 F分佈（F檢驗）用來檢驗方差齊性，可用直方圖和p-p圖來檢驗（spss/R），如果方差隨自變數x變大而變大，說明方差不齊，各個樣本的資料可能不是來自一個整體，比如汽車擁有量，大城市的樣本多，小城市樣本少，人口

【黑帽SEO系列】基礎知識

【黑帽SEO系列】基礎知識發表於 2016-10-09 | 分類於黑產研究 | 熱度 3320 ℃ 　 SEO全稱為搜尋引擎優化，是指通過站內優化、站外優化等方式，提升搜尋引擎收錄排名。既然有SEO技術，便會有相應的從業人員，他們被稱為白帽SEO，專指通過公正SEO手法，幫助提升站點排名

數理統計基礎知識2

數理統計基礎知識 1. 總體、個體和樣本 2. 統計量與充分統計量統計量常用統計量順序統計量充分統計量 1. 總體、個體和樣本在使用數理統計方法研究某個實際問題時，往往把所研究物

數理統計基礎知識1

數理統計基礎知識 1. 隨機變數 2. 概率與分佈離散型隨機變數概率分佈連續隨機變數概率分佈 3. 期望與方差期望方差 3. 常見概率分佈離散型隨機變數

一、redis系列之基礎知識與centos下環境搭建

oracle數據庫但是 sorted 插入執行映射放松適合 oracl 1. Redis 與其他 key - value 緩存產品有以下三個特點： Redis支持數據的持久化，可以將內存中的數據保持在磁盤中，重啟的時候可以再次加載進行使用。 Redis不僅僅支持

pyspark系列--統計基礎

1. 簡單統計

2. 隨機數

3. 四捨五入

4. 抽樣

5. 描述性統計

6. 最大值最小值

7. 均值方差

8. 協方差與相關係數

9. 交叉表(列聯表)

10. 頻繁專案元素

11. 其他數學函式

11.1. 數學函式

12. 元素去重計數

13. 聚合函式 grouping

14. 聚合函式 grouping_id

15. 分組排序

相關推薦