1. 程式人生 > >第六章 資料探勘建模過程

第六章 資料探勘建模過程

資料預處理

資料讀寫

  • JSON 資料結構
    import json匯入json包。json.loads(josn格式的物件) 返回一個字典 ,json.load(檔名)讀取檔案.json.dumps(josn格式的物件)寫成字串,json.dump(josn格式的物件,檔名)寫入檔案
  • pickle 序列化
    a = pickle .dumps(josn格式的物件)寫成字串,pickle .loads(a) 讀取

  • h5
    f=h5py.File(“info.h5”)建立檔案。f.create_dataset(“data”,shape=(10,20))建立內容

  • 正則表示式
    \d=[0~9],+表示更多
    collections

  • collections.Counter()統計陣列例每個元素出現的次數
  • collections.defaultdict()
    資料預處理
  • sklearn
  • 零均值:preprocessing.scale(data)
    資料探勘

  • 分類和迴歸:支援向量機,樸素貝葉斯,k近鄰,決策樹,神經網路,線性迴歸,多項式迴歸

  • 聚類:k均值聚類 層級聚類
  • 評價指標:損失函式 AUC指標 F1分數