python3 ks檢驗求平均值方差標準差中位數 dataframe使用engine寫入資料庫 pandas使用

阿新 • • 發佈：2018-11-02

需求是這樣的：將兩個資料集進行ks檢驗，算中位數方差標準差等資料，最後輸出到資料庫中
import psycopg2
import os
import pandas as pd
from scipy.stats import ks_2samp
import numpy as np
from sqlalchemy import create_engine

# 用來操作資料庫的類
class GPCommand(object):
    # 類的初始化
    def __init__(self):
      self.hostname = 'ip'
      self.username = 'name'
      self.password = 'password'
      self.database = 'database'
    def connectGp(self):
      try:
        #連結資料庫
        #讀取配置利用connect連結資料庫
        self.connect = psycopg2.connect( host=self.hostname, user=self.username, password=self.password, dbname=self.database )
        #建立一個新的cursor
        self.cursor = self.connect.cursor()
        print("connect gp successful."+'\n' + '資料庫連線成功')
        return ('con_successful')
      except psycopg2.Error:
          error = 'Failed to setup Postgres environment.\n{0}'.format(sys.exc_info())
          print('connect gp error.'+'\n' + '資料庫連線失敗')
          return 'con_error'+ error
#關閉資料庫
    def closeMysql(self):
        self.cursor.close()
        self.connect.close()
        print("資料庫已關閉")

    def select_data(self):
        try:
            select_sql1 = "select distinct a.order_no,a.cust_no,b.item_num from dw_edw.edw_ord_fct_order_info a " \
                         "left join (select order_no,count(distinct item_no) as item_num " \
                         "from dw_edw.edw_ord_fct_order_items_info group by order_no)b on a.order_no=b.order_no where a.customer_confirm_date>='2015-01-01 00:00:00'  "
            self.cursor.execute(select_sql1)
            rows1 = self.cursor.fetchall()

            select_sql2 = "select t1.*,t2.order_num,t3.item_num from( select distinct cust_no,order_no from dw_edw.edw_ord_fct_order_info " \
                          "where customer_confirm_date>='2015-01-01 00:00:00' )t1 left join ( select cust_no,count(distinct order_no) as order_num " \
                          "from dw_edw.edw_ord_fct_order_info where customer_confirm_date>='2015-01-01 00:00:00' group by cust_no )t2 on t1.cust_no=t2.cust_no " \
                          "left join  (select order_no,count(distinct item_no) as item_num from dw_edw.edw_ord_fct_order_items_info group by order_no)t3 " \
                          "on t1.order_no=t3.order_no where t2.order_num>5   "
            self.cursor.execute(select_sql2)
            rows2 = self.cursor.fetchall()
            return rows1,rows2
        except Exception as e:
            print(e)
            os._exit(0)

def kt(df1,df2,x):
    itemks = df1['item_num1']
    beta = itemks

    result2 =df2.groupby('cust_no2').count().reset_index()
    res_fram2 = result2.iloc[x]
    res_fram2_cust = res_fram2['cust_no2']
    res2 = df2[df2['cust_no2'] == res_fram2_cust]
    sampleks = res2['item_num2']
    norm = sampleks
    ks = ks_2samp(beta, norm)
    # df = pd.DataFrame({'cust_no':[res_fram2_cust],
    #                 'pvalue': [ks.pvalue]})

    return res_fram2_cust,ks.pvalue


def insert_data(data):
    engine = create_engine('postgresql://name: 
[email protected]:port/database')
    try:
        data.to_sql('market_sales_precision_ks_p_test',schema='dw_ana', con=engine, index=False, if_exists='append')
    except Exception as e:
        print(e)


def main():
    gpCommand = GPCommand()
    gpCommand.connectGp()
    ####計算平均值和方差/標準差
    res1 = gpCommand.select_data()
    cust_no1 = []
    item_num1 = []
    for item1 in res1[0]:
        cust_no1.append(item1[1])
        item_num1.append(item1[2])
    df1 = pd.DataFrame({'cust_no1':cust_no1,
                       'item_num1':item_num1 })
    result1 = df1.groupby('cust_no1')
    res1_mean1 = df1.groupby('cust_no1').mean()
    res1_var1 = df1.groupby('cust_no1').var()
    res1_std1 = df1.groupby('cust_no1').std()
    res1_median1 = df1.groupby('cust_no1').median()

    cust_no2 = []
    item_num2 = []
    for item2 in res1[1]:
        cust_no2.append(item2[0])
        item_num2.append(item2[3])
    df2 = pd.DataFrame({'cust_no2': cust_no2,
                       'item_num2': item_num2})
    res1_mean2 = df2.groupby('cust_no2').mean()
    res1_var2 = df2.groupby('cust_no2').var()
    res1_std2 = df2.groupby('cust_no2').std()
    res1_median2 = df2.groupby('cust_no2').median()

####分佈分析-ks檢驗
    data = []
    df2_size = df2.groupby('cust_no2').size()
    for i in range(0,len(df2_size)):
        datef = kt(df1,df2,i)
        data.append(datef)
    data_cust1=[]
    data_p1=[]
    for item in data:
        data_cust1.append(item[0])
        data_p1.append(item[1])
    df_pdata = pd.DataFrame({'cust_no': data_cust1,
                       'p': data_p1})
    gpCommand.closeMysql()
    insert_data(df_pdata)




main()

python3 ks檢驗求平均值方差標準差中位數 dataframe使用engine寫入資料庫 pandas使用

需求是這樣的：將兩個資料集進行ks檢驗，算中位數方差標準差等資料，最後輸出到資料庫中 import psycopg2 import os import pandas as pd from scipy.stats import ks_2samp import numpy as np from

C語言之文件操作07——讀取文件數據並計算均值方差標準差

取出學生 stdio.h fscanf track white data .net += //文件 /* =============================================================== 題目：從文本文件"high.txt

c++求一維陣列標準差

最近寫的一段c++演算法中需要計算標準差，於是就造了個輪子，順便記錄下來… 看公式，可以推斷出計算標準差分為幾步：計算平均值u=(x1+x2+…+xn)/n 計算方差s²=((x1-u)^2 +(x2-u)^2 +…+(xn-u)^2)/n

20.方差/標準差/數學期望/正態分佈/高斯函式（數學篇）--- OpenCV從零開始到影象（人臉 + 物體）識別系列

本文作者：小嗷微信公眾號：aoxiaoji 吹比QQ群：736854977 本文你會找到以下問題的答案: 方差標準差數學期望正態分佈高斯函式 2.1 方差方差描述隨機變數對於數學期望的偏離程度。（隨機變數可以

[統計學理論基礎] 方差 & 協方差 & 標準差

統計裡最基本的概念就是樣本的均值、方差和標準差。通過一個含有n個樣本的集合，依次給出這些概念的公式描述。均值描述的是樣本集合的中間點，它告訴我們的資訊是很有限的，標準差描述的則是樣本集合的各個樣本點到均值的距離之平均。以這兩個集合為例，[0，

求指定整數數組的中位數

數組 ets %d 指定 message In eof arr TP //int a[]={12,43,56,14,78,16,50,26,30,40};的中位數//按數據從小到大排序，如果是奇數個數字，則中間那個數字為中位數；如果是偶數個數字，則中間2個數字的平均值為中位

《演算法設計與分析》實踐報告--求兩個有序序列的中位數

實驗題目：兩個有序序列的中位數已知有兩個等長的非降序序列S1, S2, 設計函式求S1與S2並集的中位數。有序序列A0,A1,⋯,AN−1的中位數指A(N−1)/2的值,即第⌊(N+1)/2⌋個數（A0為第1個數）。輸入格式:

求兩個升序序列的中位數

這裡涉及到資料結構中順序表的實現、刪除、插入、查詢等知識，請檢視：資料結構 -> 線性表問題描述：一個長度為L (L>=1)的升序序列S，處在第[L/2]個位置的數稱為S的中位數。例如，若序列S1=(11, 13, 15, 17, 19)，則S1的中位數

PAT 1029. Median (25) 求2個排序陣列的中位數——剔除法

/************************* 題意：求2個排序陣列的中位數 ************************/ /*********************** 剔除法，以求第幾大元素的角度去看例如7個元素，則第4大的元素就是中位數。那麼只要陣

利用分治法來求兩個排序陣列的中位數

有兩個陣列 ar1[] 和ar2[] 兩個陣列的長度都為n 求ar1[]和ar2[]的中位數可以借鑑歸併排序的思想實質上就是將將兩個已經排好序的陣列合併成一個數組的過程只是在這個過程中添加

求兩個排序陣列的中位數

設X[1...n]和Y[1...n]為兩個陣列，每個都包含n個已排序好的數。給出一個求陣列X和Y中所有2n個元素的中位數的、O(lgn)時間的演算法。演算法思想： 1.兩個陣列中小於median的個數為(n - 1)個，假設該median為陣列a中的第k個，k為陣

求多個有序陣列的中位數

題目：求解多個有序陣列的中位數題目的意思是如果多個有序陣列能在一起排序，則取位置為中間的數字，如果有奇數個數字則中位數只有一個;若為偶數個則有兩個，一般取第一個，也稱下中位。但不能把數組合在一起做插入或快速排序，因為資料可能是海量的。該題目可能有很多種實現方法，而我

求兩個有序陣列的中位數-演算法導論

Question There are 2 sorted arrays A and B of size n each. Write an algorithm to find the median of the array obtained after merging th

平均值(Mean)、方差(Variance)、標準差(Standard Deviation)

本文目錄開篇明志對於一維資料的分析，最常見的就是計算平均值(Mean)、方差(Variance)和標準差(Standard Deviation)。在做【特徵工程】的時候，會出現缺失值，那麼經常會用到使用平均值或者中位數等進行填充。

標準差、方差、協方差的簡單說明

cli -1016 -i 分享技術變量 one 舉例 blog 在一個樣本中，樣本的無偏估計的均值、標準差和方差如下：對於單個變量，它的協方差可以表示為：其實它即是方差，所以呢，當只有一個變量時，方差是協方差的一種特殊情況；舉例：有一個變量 X的樣

最大值，最小值，平均值，標準差的計算

ray num 最大值標準差 bsp div clas min 2.0 用numpy函數可實現快速計算 n [23]: import numpy as np In [24]: data = [1, 2, 3] In [25]: np.mean(data) Out[2

描述統計學：極差、方差、標準差

變異程度的度量（離散程度的度量）交貨時間的變異性造成按時完成生產任務的不確定性極差極差=最大值-最小值最簡單的變異程度的度量但很少單獨用來度量變異程度。僅有兩個觀測值，異受極端值的影響四分位數間距能夠克服極端值的影響，因為四分位數是中間的50%資料的極差. 方差是用所有資

【Python】不用numpy用純python求極差、平均數、中位數、眾數與方差，python的列印到控制檯

原文連結：https://blog.csdn.net/yongh701/article/details/50150619 python作為資料分析的利器，求極差、平均數、中位數、眾數與方差是很常用的，然而，在python進行統計往往要使用外部的python庫numpy，這個庫不難裝，然而，如果單

python求解數字的平均值、方差、中位數

# 定義數字輸入函式 def getNum(): nums = [] iNumStr = input("請輸入數字（回車退出）：") while iNumStr != "": #當輸入為空時，跳出迴圈 nums.append(eval(iNumStr))

課堂練習--計算陣列的最大值，最小值，平均值，標準差，中位數；numpy.random模組提供了產生各種分佈隨機數的陣列；正態分佈；Matplotlib

#計算陣列的最大值，最小值，平均值，標準差，中位數 import numpy as np a=np.array([1, 4, 2, 5, 3, 7, 9, 0]) print(a) a1=np.max(a) #最大值 print(a1) a2=np.min(a) #最小值 print(a2) a3

python3 ks檢驗 求平均值方差標準差中位數 dataframe使用engine寫入資料庫 pandas使用

相關推薦

python3 ks檢驗求平均值方差標準差中位數 dataframe使用engine寫入資料庫 pandas使用