1. 程式人生 > 其它 >手寫linear-regression預測PM2.5

手寫linear-regression預測PM2.5

作業要求

資料集


每個月記錄20天,每天記錄20個小時,總共有18個特徵(PM2.5包括在其中)

需要用前9個小時預測第十個小時的PM2.5監測值

資料預處理

首先讀取資料集

import pandas as pd
import numpy as np
data = pd.read_csv(r"C:\Users\Administrator\Desktop\機器學習\深度學習\day1\hw1\hw1\train.csv")

發現讀了個倒著的進來(讀了繁體字),但.columns和.values沒有問題,那資料也沒問題,可以用樸素的程式碼去解決這個問題(

嘗試著把有問題的列名改了,然後就好了:

data.rename(columns={data.columns[0]:'日期',data.columns[1]:'測站',data.columns[2]:'測項'},inplace=True)

首先把RAINFALL裡面的資料看看:

s = set()
for i in range(0,len(data.values)):
    if data.values[i][2]=='RAINFALL':
        for j in range(3,len(data.values[i])):
            s.add(data.values[i][j])

發現除了'NR'以外其他均為實數,把'NR'變成0

#data[data == 'NR'] = 0
for i in range(0,len(data.values)):
    if data.values[i][2] == 'RAINFALL':
        for j in range(3,len(data.values[i])):
            if data.values[i][j] == 'NR':
                data.values[i][j] = 0

這樣就把RAINFALL裡面的非實數消除了


然後把