手寫linear-regression預測PM2.5
阿新 • • 發佈:2022-01-02
資料集
每個月記錄20天,每天記錄20個小時,總共有18個特徵(PM2.5包括在其中)
需要用前9個小時預測第十個小時的PM2.5監測值
資料預處理
首先讀取資料集
import pandas as pd
import numpy as np
data = pd.read_csv(r"C:\Users\Administrator\Desktop\機器學習\深度學習\day1\hw1\hw1\train.csv")
發現讀了個倒著的進來(讀了繁體字),但.columns和.values沒有問題,那資料也沒問題,可以用樸素的程式碼去解決這個問題(
嘗試著把有問題的列名改了,然後就好了:
data.rename(columns={data.columns[0]:'日期',data.columns[1]:'測站',data.columns[2]:'測項'},inplace=True)
首先把RAINFALL裡面的資料看看:
s = set()
for i in range(0,len(data.values)):
if data.values[i][2]=='RAINFALL':
for j in range(3,len(data.values[i])):
s.add(data.values[i][j])
發現除了'NR'以外其他均為實數,把'NR'變成0
#data[data == 'NR'] = 0
for i in range(0,len(data.values)):
if data.values[i][2] == 'RAINFALL':
for j in range(3,len(data.values[i])):
if data.values[i][j] == 'NR':
data.values[i][j] = 0
這樣就把RAINFALL裡面的非實數消除了
然後把