第一週：深度學習及pytorch基礎

阿新 • • 發佈：2020-07-24

（注：視訊課程已學習，略）

貓狗大戰進展

一、"AI研習社"實驗過程

1、將下載好的資料集上傳到colab平臺

首先連線Google雲端：

import os
from google.colab import drive
drive.mount('/content/drive')

path = "/content/drive/My Drive"

os.chdir(path)
os.listdir(path)

將資料集上傳到雲端，執行程式碼時結果報錯：
解決：(解決方法錯誤，和ImageFolder有關，具體可見第2步）:

2、將訓練集和驗證集按類別分類

import os
import shutil
shutil.rmtree('/content/drive/My Drive/cat_dog/test/1')
print('delete finished')

os.mkdir('/content/drive/My Drive/cat_dog/val/cat')
os.mkdir('/content/drive/My Drive/cat_dog/val/dog')

path = r'/content/drive/My Drive/cat_dog/val'
newcat = '/content/drive/My Drive/cat_dog/val/cat'
newdog = '/content/drive/My Drive/cat_dog/val/dog'
fns = [os.path.join(root,fn) for root, dirs, files in os.walk(path) for fn in files]
for f in fns:
    name1 = str(f)
    if 'cat_dog/val/3/cat' in name1:
      shutil.copy(f, newcat)
    else:
      shutil.copy(f, newdog)

print(len(fns))

分類後檢視資料集發現目錄中包含了隱藏資料夾ipynb_checkpoints

['.ipynb_checkpoints', 'cat', 'dog']
{'.ipynb_checkpoints': 0, 'cat': 1, 'dog': 2}

解決：

cd /content/drive/My Drive/cat_dog/train

!rm -rf .ipynb_checkpoints

3、上傳測試集資料並自定義測試集testData

from PIL import Image
test_data_dir = '/content/drive/My Drive/cat_dog/test'
class TestDS(torch.utils.data.Dataset): 
    def __init__(self, transform=None):
        self.test_data = os.listdir(test_data_dir)
        self.test_label = np.zeros(2000)
        self.transform = transform
    def __getitem__(self, index):
        # 根據索引返回資料和對應的標籤
        image = Image.open(self.test_data[index]).convert('RGB')
        image = self.transform(image)
        return image, self.test_label[index]
    def __len__(self): 
        # 返回檔案資料的數目
        return len(self.test_data)
# 讀取測試集
testData = TestDS(transform=vgg_format)
print(len(testData))

4、載入模型：

# 載入與預訓練模型
model_vgg = models.vgg16(pretrained=True)
# 凍結模型引數
for param in model_vgg_new.parameters():
    param.requires_grad = False
# 修改最後一層模型
model_vgg_new.classifier._modules['6'] = nn.Linear(4096, 2)
# 損失函式nn.CrossEntropyLoss = log_softmax() + NLLLoss() 
model_vgg_new.classifier._modules['7'] = torch.nn.LogSoftmax(dim = 1) 
# 修改優化器為adam
optimizer_vgg = torch.optim.Adam(model_vgg_new.classifier[6].parameters(),lr = lr)

5、模型訓練並用驗證集檢查效果

# 訓練模型
def train_model(model,dataloader,size,epochs=1,optimizer=None):
    model.train()
    for epoch in range(epochs):
        running_loss = 0.0
        running_corrects = 0
        count = 0
        for inputs,classes in dataloader:
            inputs = inputs.to(device)
            classes = classes.to(device)
            outputs = model(inputs)
            loss = criterion(outputs,classes)     
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()
            _,preds = torch.max(outputs.data,1)
            # statistics
            running_loss += loss.data.item()
            running_corrects += torch.sum(preds == classes.data)
            count += len(inputs)
            # print('Training: No. ', count, ' process ... total: ', size)
        epoch_loss = running_loss / size
        epoch_acc = running_corrects.data.item() / size
        print('Loss: {:.4f} Acc: {:.4f}'.format(
                     epoch_loss, epoch_acc))    
# 模型訓練
train_model(model_vgg_new,loader_train,size=dset_sizes['train'], epochs=1, 
            optimizer=optimizer_vgg)  

#模型驗證
def test_model(model,dataloader,size):
    model.eval()
    predictions = np.zeros(size)
    all_classes = np.zeros(size)
    all_proba = np.zeros((size,2))
    i = 0
    running_loss = 0.0
    running_corrects = 0
    for inputs,classes in dataloader:
        inputs = inputs.to(device)
        classes = classes.to(device)
        outputs = model(inputs)
        loss = criterion(outputs,classes)           
        _,preds = torch.max(outputs.data,1)
        # statistics
        running_loss += loss.data.item()
        running_corrects += torch.sum(preds == classes.data)
        predictions[i:i+len(classes)] = preds.to('cpu').numpy()
        all_classes[i:i+len(classes)] = classes.to('cpu').numpy()
        all_proba[i:i+len(classes),:] = outputs.data.to('cpu').numpy()
        i += len(classes)
        # print('Testing: No. ', i, ' process ... total: ', size)        
    epoch_loss = running_loss / size
    epoch_acc = running_corrects.data.item() / size
    print('Loss: {:.4f} Acc: {:.4f}'.format(
                     epoch_loss, epoch_acc))
    return predictions, all_proba, all_classes
  
predictions, all_proba, all_classes = test_model(model_vgg_new,loader_valid,size=dset_sizes['val'])

6、編寫測試程式碼：

def test_model(model,dataloader,size):
    model.eval()
    predictions = np.zeros(size)
    all_classes = np.zeros(size)
    all_proba = np.zeros((size,2))
    i = 0
    running_loss = 0.0
    running_corrects = 0

    for inputs,classes in dataloader:
        inputs = inputs.to(device)
        classes = classes.to(device)
        outputs = model(inputs)
        loss = criterion(outputs,classes)           
        _,preds = torch.max(outputs.data,1)

        predictions[i:i+len(classes)] = preds.to('cpu').numpy()
        i += len(classes)
    return predictions
  
results = test_model(model_vgg_new,loader_test,size=2000)
print(results)

7、將測試集的輸出結果儲存：

name = []
for i in testData.test_data:
  j = i[37:-4]
  name.append(int(j))
print(results)
print(name)

import pandas as pd
#字典中的key值即為csv中列名
dataframe = pd.DataFrame({'name':name,'results':results})
#將DataFrame儲存為csv,index表示是否顯示行名，default=True
dataframe.to_csv("/content/sample_data/test.csv",index=False,sep=',')

8、將csv檔案按平臺要求修改，觀察結果

二、改進模型

1、修改訓練輪數epoch=3——沒什麼用，訓練輪數不宜太多，可能還會過擬合

2、使用resnet152預訓練模型

修改模型和最後一層：

model_resnet = models.resnet152(pretrained=True)
model_resnet.fc = nn.Linear(2048, 2)

損失函式使用：

criterion = nn.CrossEntropyLoss()

修改學習率和隨機梯度下降，每隔7個epoch學習率降低

lr = 0.001
optimizer_vgg = torch.optim.Adam(model_resnet.fc.parameters(),lr = lr)
def adjust_learning_rate(optimizer, lr):
    for param_group in optimizer.param_groups:
        param_group['lr'] = lr
        
        
for eooch in range(epochs):
        if epoch > 7:
            lr = 0.0001
        elif epoch > 14:
            lr = 0.00001
        elif epoch > 21:
            lr = 0.000001
        elif epoch > 28:
            lr = 0.0000001
        adjust_learning_rate(optimizer, lr)

修改 epoch = 30 並進行訓練，得到驗證集結果：

上傳平臺，並未得到改進：（多次嘗試epoch和lr的設定，學習率總在98%左右，未能達到99%以上）

3、構造SENet網路，訓練過程引數太多，導致colab記憶體溢位

4、借鑑網路中的神經網路結構：https://www.cnblogs.com/ansang/p/9126427.html，將其復現為PyTorch結構，也不能達到99%以上的準確率：


class Net(nn.Module):
  def __init__(self):
    super(Net, self).__init__()

    self.conv1 = nn.Conv2d(3, 32, kernel_size=(3, 3), stride=1, padding=1)
    self.max_pooling2d = nn.MaxPool2d(2,stride=2)
    self.conv2 = nn.Conv2d(32, 32, kernel_size=(3, 3), stride=1, padding=1)
    self.conv3 = nn.Conv2d(32, 64, kernel_size=(3, 3), stride=1, padding=1)
    self.conv4 = nn.Conv2d(64, 64, kernel_size=(3, 3), stride=1, padding=1)
    self.fc1 = nn.Linear(28*28*64, 1024)
    self.fc2 = nn.Linear(1024, 2)
    self.relu = nn.ReLU(128)
    self.dropout = nn.Dropout(0.4)

  def forward(self, x):
    x = self.relu(self.conv1(x))
    x = self.max_pooling2d(x)
    x = self.relu(self.conv2(x))
    x = self.max_pooling2d(x)
    x = self.relu(self.conv3(x))
    x = self.relu(self.conv4(x))
    x = self.max_pooling2d(x)
    x = x.view(-1, x.shape[1]*x.shape[2]*x.shape[3])
    x = self.relu(self.fc1(x))
    x = self.dropout(x)
    x = self.fc2(x)
    return x

第一週：深度學習及pytorch基礎

（注：視訊課程已學習，略）貓狗大戰進展一、\"AI研習社\"實驗過程 1、將下載好的資料集上傳到colab平臺

【第一週】深度學習和PyTorch基礎

緒論本次作業主要針對機器學習概念的掃盲以及PyTorch的基礎應用。全文共分為四個部分，分別是：第一部分對影象的基本操作，第二部分PyTorch的常用操作，第三部分和第四部分是PyTorch的實際應用。由於之前

深度學習之Pytorch（一）神經網路基礎及程式碼實現

1.1 Tensor (張量) Tensor 可以和 numpy 的 ndarray相互轉換Tensor有不同資料型別，有32位浮點型torch.FloatTensor、64位浮點型 torch.DoubleTensor等

《深度學習框架PyTorch入門與實踐》示例——AI插畫師：生成對抗網路

執行環境：Anaconda3 + PyCharm + PyTorch + python3 這是《深度學習框架PyTorch入門與實踐》的第七章示例，利用生成對抗網路生成動漫人物頭像。

《深度學習框架PyTorch入門與實踐》示例——AI藝術家：神經網路風格遷移

這是我在學習《深度學習框架PyTorch入門與實踐》第九章的筆記。原書實現了Fast Neural Style，實現將輸入圖片轉換為對應圖片風格的型別。

第一週：資料清洗+重置格式+寫入資料庫

實習第一週的主要工作是協助基本面研究員把資料庫源上的資料搞到我們公司的資料庫裡。（使用者名稱和密碼我都打碼處理啦）

深度學習與Pytorch入門實戰（六）定義MLP&GPU加速&測試

筆記摘抄 Pytorch定義網路結構識別手寫數字，可以對網路中的引數w和b進行手動定義的(參考上一節)

深度學習與Pytorch入門實戰（七）Visdom視覺化工具

筆記摘抄 1. 安裝visdom 安裝教程 2. 開啟監聽程序 python -m visdom.server 3. 訪問用chrome瀏覽器訪問url連線：http://localhost:8097

深度學習與Pytorch入門實戰（十一）資料增強

1. 資料增強比如，你遇到的一個任務，目前只有小几百的資料，然而目前流行的最先進的神經網路都是成千上萬的圖片資料，可以通過資料增強來實現。

深度學習與Pytorch入門實戰（十五）LSTM

LSTM詳解 LSTM實現筆記摘抄 1. nn.LSTM 1.1 lstm=nn.LSTM(input_size, hidden_size, num_layers) lstm=nn.LSTM(input_size, hidden_size, num_layers)

深度學習與Pytorch入門實戰（十六）情感分類實戰（基於IMDB資料集）

筆記摘抄提前安裝torchtext和scapy，執行下面語句（壓縮包地址連結：https://pan.baidu.com/s/1_syic9B-SXKQvkvHlEf78w 提取碼：ahh3）：

《深度學習與Pytorch入門實戰》2019

《深度學習與Pytorch入門實戰》2019 其他 https://www.cnblogs.com/taosiyu/category/1538754.html

28. Python記憶體管理與垃圾回收(第一部分)：深度剖析Python記憶體管理架構、記憶體池的實現原理

楔子記憶體管理，對於Python這樣的動態語言來說是非常重要的一部分，它在很大程度上決定了Python的執行效率，因為Python在執行中會建立和銷燬大量的物件，這些都涉及記憶體的管理，因此精湛的記憶體管理技術是確保記

深度學習的數學基礎part1

深度學習所需的數學基礎part1 神經網路的思想神經元工作的數學表示啟用函式的定義什麼是神經網路網路自學習的神經網路

圖解HTTP《一》：瞭解Web及網路基礎

使用HTTP協議訪問Web：當在網頁瀏覽器（Web browser）的位址列中輸入URL時，Web頁面是如何呈現的呢？根據Web瀏覽器位址列中指定的URL，Web瀏覽器從Web伺服器端獲取檔案資源等資訊，從而顯示出Web頁面。

藉助北外映象用miniconda從零開始搭建深度學習框架pytorch和tensorflow

藉助北外映象搭建深度學習框架pytorch或tensorflow 前言北外映象安裝anaconda在conda中搭建pytorchpytorch安裝後使用程式碼驗證安裝tensorflow總結

Angel：深度學習在騰訊廣告推薦系統中的實踐

分享嘉賓：郭躍超騰訊應用研究員編輯整理：康德芬出品平臺：DataFunTalk 導讀：Angel是騰訊自研的分散式高效能的機器學習平臺，支援機器學習、深度學習、圖計算以及聯邦學習等場景。Angel的深度學習

百度線下活動：深度學習應用開發 + 開源框架應用主題分享！

↑↑↑關注後"星標"Datawhale 每日干貨&每月組隊學習，不錯過 Datawhale活動

《深度學習框架PyTorch入門與實踐》示例——利用LeNet進行CIFAR-10分類

平臺及框架：python3 + anaconda + pytorch + pycharm 我主要是根據陳雲的《深度學習框架PyTorch入門與實踐》來學習的，書中第二章的一個示例是利用卷積神經網路LeNet進行CIFAR-10分類。

深度學習與PyTorch | 深度學習的介紹 | 01

目錄深度學習的概念機器學習和深度學習的區別區別1: 特徵提取區別2: 資料量常見的深度學習框架

第一週：深度學習及pytorch基礎

貓狗大戰進展

一、"AI研習社"實驗過程

1、將下載好的資料集上傳到colab平臺

2、將訓練集和驗證集按類別分類

3、上傳測試集資料並自定義測試集testData

4、載入模型：

5、模型訓練並用驗證集檢查效果

6、編寫測試程式碼：

7、將測試集的輸出結果儲存：

8、將csv檔案按平臺要求修改，觀察結果

二、改進模型

1、修改訓練輪數epoch=3——沒什麼用，訓練輪數不宜太多，可能還會過擬合

2、使用resnet152預訓練模型

3、構造SENet網路，訓練過程引數太多，導致colab記憶體溢位

4、借鑑網路中的神經網路結構：https://www.cnblogs.com/ansang/p/9126427.html，將其復現為PyTorch結構，也不能達到99%以上的準確率：

相關推薦