利用Python資料分析：資料規整化（五）

阿新 • • 發佈：2019-01-09

import pandas as pd
from pandas import Series,DataFrame
import numpy as np
import  re
# 計算指標/啞變數（dummy）
df = DataFrame({'key':['b','b','a','c','a','b'],
                'data1':range(6)})
pd.get_dummies(df['key']) # 根據某一列製造暗變數矩陣
dummies = pd.get_dummies(df['key'],prefix='key') # 給暗變數的列加上一個字首“key”
dummies
df_with_dummy = df[['data1']].join(dummies)
df_with_dummy # 生成新的dataframe
mnames = ['movie_id','title','genres']
movies = pd.read_table('pydata-book-master/ch02/movielens/movies.dat',sep='::',header=None,
                       names=mnames)
movies[:10] # genres 一行屬於多個分類
genre_iter = (set(x.split('|'))for x in movies.genres) # 將各個類分離出來
genres = sorted(set.union(*genre_iter))
dummies = DataFrame(np.zeros((len(movies),len(genres))),columns=genres) # 構建一個零矩陣
for i ,gen in enumerate(movies.genres):
    dummies.ix[i,gen.split('|')] = 1 # 將dummies的各行設定為1
dummies
movies_windic = movies.join(dummies.add_prefix('Genre_')) # 同原有的資料進行連結
movies_windic.ix[0]
values = np.random.rand(10)
values # 結合cut之類的離散化函式
bins = [0,0.2,0.4,0.6,0.8,1]
pd.get_dummies(pd.cut(values,bins)) # 結合了cut函式
# 字串操作
val = 'a,b,   guido'
val.split(',')# 保留空白符分割成數段 但是會保留空白符
pieces = [x.strip() for x in val.split(',')] # 去掉空白符
pieces
first,second,third = pieces
first+'::'+second+'::'+third # 拆分開而後加上新的字元連結
'::'.join(pieces) # 向字元的join方法傳入一個列表或者元組也能完成相同的功能
'guido' in val # in關鍵字來檢查是否在字串內 也可以用find和index
val.index(',')
val.find(':') # 如果找不到find會返回-1 而index會引發一個異常
val.index(':')
val.count(',') # 返回子串出現的次數
val.replace(',','::') # 將一個模式替換成另一個模式
# 在pandas中向量化字串函式
data ={'Dave':' 
[email protected]','Steve':'[email protected]',
       'Rob':'[email protected]','Wbs':np.nan}
data = Series(data)
data
data.isnull()
data.str.contains('gmail') # 使用Series的str來檢查是否含有gmail
pattern = "([A-Z0-9._%+0]+)@([[A-Z0-9.-]+)\\.([A-Z]{2,4})"
data.str.findall(pattern,flags = re.IGNORECASE)
matches = data.str.match(pattern,flags = re.IGNORECASE)
matches
matches.str.get(1) # 獲取元素使用str.get或者使用索引
matches.str[0]
data.str[:5] #對字串進行子串的獲取

利用Python資料分析：資料規整化（五）

import pandas as pd from pandas import Series,DataFrame import numpy as np import re # 計算指標/啞變數（dummy） df = DataFrame({'key':['b','b','a

python資料分析：內容資料化運營（下）——基於多項式貝葉斯增量學習分類文字

案例背景及資料見上一篇案例實現匯入模組 import re import tarfile import os import numpy as np from bs4 import BeautifulSoup from sklearn.feature_extracti

python資料分析：內容資料化運營（中）——基於潛在狄利克雷分配（LDA）的內容主體挖掘

案例背景本案例是從一堆新聞檔案中建立相應的主題模型，然後得到不同模型的主題特點，並通過對新文字資料集的預測得到其可能的主題分類。相關知識 TF-IDF TF-IDF（term frequency–inverse document frequency）是一種針對關鍵字的

python資料分析：內容資料化運營（上）——知識點

何為資料化運營內容運營是指基於內容的策劃、編輯、釋出、優化、營銷等一系列工作，主要集中在網際網路、媒體等以內容為主的行業領域。內容運營根據內容生產方式的不同可分為UGC、PGC和OGC三種。 UGC（User-generated Content），使用者生產內容。這是論

python資料分析：流量資料化運營（下）——基於自動K值得KMeans廣告效果聚類分析

案例背景某企業由於投放的廣告渠道比較多，需要對其做廣告效果分析以實現有針對性的廣告效果測量和優化工作。跟以應用為目的的案例不同的是，由於本案例是一個分析型案例，該過程的輸出其實是不固定的，因此需要跟業務運營方具體溝通需求。以下是在開展研究之前的基本預設條件：廣告渠道

python資料分析：流量資料化運營（中）——流量資料波動原因下探分析

從細分到多層下鑽資料分析細分是網站分析的基本方法，也是資料分析的基本思路。細分分析的過程是對整體資料進行層層拆分，然後找到影響整體的區域性因素。步驟1：全站流量按來源模組可細分為廣告、SEM、SEO和直接輸入（假設只有4個模組）。細分發現廣告是網站流量的主要來源（昨日訪問量佔比

python資料分析：流量資料化運營（上）——知識點

流量資料化運營流量值從數字裝置上訪問企業的網站、app應用、智慧裝置的使用者行為，它主要包括使用者從哪裡來，在企業相關載體上有哪些行為、產生了哪些轉化等。媒體資訊時代，使用者行為移動化、需求個性化的複雜背景下，企業想要獲得使用者關注愈發困難。並且隨著營銷成本的增加，企業流量能夠更

python資料分析：商品資料化運營（下）——基於投票組合模型的異常檢測

本案例用到的主要技術包括：基本預處理：使用DictVectorizer將字串分類變數轉換為數值型變數、使用SMOTE對不均衡樣本做過抽樣處理。資料建模：基於cross_val_score的交叉檢驗、基於LogisticRegression、RandomForest、

python資料分析：商品資料化運營（中）——基於引數優化的Gradient Boosting的銷售預測

本案例需要使用超引數交叉檢驗和優化方法GridSearchCV以及整合迴歸方法GradientBoostingRegressor GridSearchCV與GradientBoostingRegressor GridSearchCV GridSearchCV用於系統地遍歷多種

python資料分析：商品資料化運營（上）——知識點

商品資料運營指標銷售類指標訂單量/商品銷售量訂單量指使用者提交訂單的數量，計算邏輯去重後的訂單ID的數量。商品銷售量又稱銷售件數，指銷售商品的數量。訂單金額/商品銷售金額訂單金額為使用者提

python資料分析：會員資料化運營（中）——RMF分析

何為RFM模型分析 RFM模型是衡量客戶價值和客戶創利能力的重要工具和手段。在眾多的客戶關係管理(CRM)的分析模式中，RFM模型是被廣泛提到的。該機械模型通過一個客戶的近期購買行為、購買的總體頻率以及花了多少錢3項指標來描述該客戶的價值狀況。 RFM的含義： R（R

python資料分析：會員資料化運營（上）——知識點

會員資料化運營解決問題：會員的生命週期狀態是什麼；會員的核心訴求是什麼；會員的轉化習慣和路徑是什麼；會員的價值如何；如何擴大市場覆蓋、獲得更多的新會員；如何更好地維繫老會員；應該在什麼時間、採取何種措施、針對哪些會員做哪些運營

python資料分析之numpy初始化（一）

以下都用numpy的標準“import numpy as np” 1.numpy是同構資料多維容器，同構即資料型別相同 2.初始化： 2.1np.arange([start,] end [, step

利用Python資料分析：資料規整化（四)

# 移除重複項 data = DataFrame({'k1':['one'] * 3 +['two'] * 4, 'k2':[1,1,2,3,3,4,4]}) data data.duplicated() # 返回一個布林型別的Serie

利用Python資料分析：資料規整化（三)

a = Series([np.nan,2.5,np.nan,3.5,4.5,np.nan], index=['f','e','d','c','b','a']) b = Series(np.arange(len(a),dtype=np.float64),

python資料分析新手入門課程學習——（二）探索分析與視覺化（來源：慕課網）

一，單因子與對比分析視覺化資料 import pandas as pd df = pd.read_csv('./HR.csv') #檢視前十條資料 df.head(10) 以下為顯示的結果我們可以看出：第一個屬性satisf

利用Python資料分析：資料載入、儲存與檔案格式（一)

import pandas as pd from pandas import DataFrame,Series import sys import numpy as np df = pd.read_csv('E:\Python for Data Analysis\pydat

python資料分析新手入門課程學習——（一）資料獲取（來源：慕課網）

一、資料獲取手段 1.資料倉庫（DW）：將所有業務資料經彙總處理構成 1）特點：全部事實的記錄；部分維

python資料分析：關聯規則學習（Association rule learning）

何為關聯規則學習關聯規則學習是一種基於規則的機器學習方法，用於發現大型資料庫中變數之間的有趣關係。它旨在使用一些有趣的度量來識別在資料庫中發現的強規則。這種基於規則的方法在分析更多資料時也會生成新規則。假設資料集足夠大，最終目標是幫助機器模擬人類大腦的特徵提取和新未分類資料的抽象關

Python資料分析與挖掘學習筆記（5）資料規範化與資料離散化實戰

一、相關理論： 1、資料規範化的常見方法：（1）離差標準化（最小-最大標準化）--消除量綱（單位）影響以及變異大小因素的影響。（最小-最大標準化） x1=（x-min）/（max-min）（2）標準差標準化--消除單

利用Python資料分析：資料規整化（五）

相關推薦