FCOS官方程式碼詳解（二）：Architecture(head)

阿新 • • 發佈：2021-01-07

https://blog.csdn.net/laizi_laizi/article/details/105519290

FCOS官方程式碼詳解（二）：Architecture[head]

上一篇寫到head部分就感覺太長了，還是分開來寫：FCOS官方程式碼詳解（一）：Architecture(backbone)
這一篇就繼續把architecture中的fcos_head分析一下，腦海中一直要有這圖的印象：

fcos_head

在類GeneralizedRCNN初始化的時候還有這麼一句：self.rpn = build_rpn(cfg, self.backbone.out_channels)

,其實這裡沒改過來，實際構造的是fcos_head，返回的是build_fcos(cfg, in_channels)，具體程式碼在fcos_core/modeling/rpn/fcos/fcos.py
然後build_fcos返回的是FCOSModule

def build_fcos(cfg, in_channels):
    return FCOSModule(cfg, in_channels)

看一下FCOSModule()的初始化部分

class FCOSModule(torch.nn.Module):
    """
    Module for FCOS computation. Takes feature maps from the backbone and
    FCOS outputs and losses. Only Test on FPN now.
    """

    def __init__(self, cfg, in_channels):
        super(FCOSModule, self).__init__()

        head = FCOSHead(cfg, in_channels)  # 構造fcos的頭部

        box_selector_test = make_fcos_postprocessor(cfg)

        loss_evaluator = make_fcos_loss_evaluator(cfg)
        self.head = head
        self.box_selector_test = box_selector_test
        self.loss_evaluator = loss_evaluator
        self.fpn_strides = cfg.MODEL.FCOS.FPN_STRIDES  # eg:[8, 16, 32, 64, 128]

    def forward(self, images, features, targets=None):  # 呼叫的時候:self.rpn(images, features, targets)
        pass

那就轉過去看一下FCOSHead：

class FCOSHead(torch.nn.Module):
    def __init__(self, cfg, in_channels):
        """
        Arguments:
            in_channels (int): number of channels of the input feature
            這個就是fpn每層的輸出通道數，根據之前分析，都是一樣的，如256
        """
        super(FCOSHead, self).__init__()
        # TODO: Implement the sigmoid version first.
        num_classes = cfg.MODEL.FCOS.NUM_CLASSES - 1              # eg:80
        self.fpn_strides = cfg.MODEL.FCOS.FPN_STRIDES             # eg:[8, 16, 32, 64, 128]
        self.norm_reg_targets = cfg.MODEL.FCOS.NORM_REG_TARGETS   # eg:False 直接回歸還是歸一化後迴歸
        self.centerness_on_reg = cfg.MODEL.FCOS.CENTERNESS_ON_REG # eg:False centerness和哪個分支共用特徵
        self.use_dcn_in_tower = cfg.MODEL.FCOS.USE_DCN_IN_TOWER   # eg:False

        cls_tower = []
        bbox_tower = []
        # eg: cfg.MODEL.FCOS.NUM_CONVS=4頭部共享特徵時(也稱作tower)有4層卷積層
        for i in range(cfg.MODEL.FCOS.NUM_CONVS):
            if self.use_dcn_in_tower and \
                    i == cfg.MODEL.FCOS.NUM_CONVS - 1:
                conv_func = DFConv2d
            else:
                conv_func = nn.Conv2d

            # cls_tower和bbox_tower都是4層的256通道的3×3的卷積層，後加一些GN和Relu
            cls_tower.append(
                conv_func(
                    in_channels,
                    in_channels,
                    kernel_size=3,
                    stride=1,
                    padding=1,
                    bias=True
                )
            )
            cls_tower.append(nn.GroupNorm(32, in_channels))
            cls_tower.append(nn.ReLU())
            bbox_tower.append(
                conv_func(
                    in_channels,
                    in_channels,
                    kernel_size=3,
                    stride=1,
                    padding=1,
                    bias=True
                )
            )
            bbox_tower.append(nn.GroupNorm(32, in_channels))
            bbox_tower.append(nn.ReLU())

        self.add_module('cls_tower', nn.Sequential(*cls_tower))
        self.add_module('bbox_tower', nn.Sequential(*bbox_tower))
        # cls_logits就是網路的直接分類輸出結果，shape:[H×W×C]
        self.cls_logits = nn.Conv2d(
            in_channels, num_classes, kernel_size=3, stride=1,
            padding=1
        )
        # bbox_pred就是網路的迴歸分支輸出結果，shape:[H×W×4]
        self.bbox_pred = nn.Conv2d(
            in_channels, 4, kernel_size=3, stride=1,
            padding=1
        )
        # centerness就是網路抑制低質量框的分支，shape:[H×W×1]
        self.centerness = nn.Conv2d(
            in_channels, 1, kernel_size=3, stride=1,
            padding=1
        )

        # initialization 這些層裡面的卷積引數都進行初始化
        for modules in [self.cls_tower, self.bbox_tower,
                        self.cls_logits, self.bbox_pred,
                        self.centerness]:
            for l in modules.modules():
                if isinstance(l, nn.Conv2d):
                    torch.nn.init.normal_(l.weight, std=0.01)
                    torch.nn.init.constant_(l.bias, 0)

        # initialize the bias for focal loss 我只知道分類是用focal loss，可能是一種經驗trick?
        prior_prob = cfg.MODEL.FCOS.PRIOR_PROB
        bias_value = -math.log((1 - prior_prob) / prior_prob)
        torch.nn.init.constant_(self.cls_logits.bias, bias_value)

        # P3-P7共有5層特徵FPN，縮放因子，對迴歸結果進行縮放
        self.scales = nn.ModuleList([Scale(init_value=1.0) for _ in range(5)])  

    def forward(self, x):
        logits = []
        bbox_reg = []
        centerness = []
        # 我想這裡的x應該是fpn出來的各層特徵，因為x根據下一句看是可迭代的
        for l, feature in enumerate(x):
            # 要注意，不圖層經過tower之後的特徵圖大小是不一樣的
            # 還有一點就是，不同層的特徵都是共享一個tower，無論是cls分支還是bbox分支
            cls_tower = self.cls_tower(feature)
            box_tower = self.bbox_tower(feature)

            logits.append(self.cls_logits(cls_tower))
            # 根據centerness_on_reg選擇對應的tower特徵
            if self.centerness_on_reg:
                centerness.append(self.centerness(box_tower))
            else:
                centerness.append(self.centerness(cls_tower))

            bbox_pred = self.scales[l](self.bbox_pred(box_tower))  # 得到縮放後的bbox_pred
            if self.norm_reg_targets:
                bbox_pred = F.relu(bbox_pred)
                if self.training:
                    bbox_reg.append(bbox_pred)
                else:
                    bbox_reg.append(bbox_pred * self.fpn_strides[l])
            else:
                bbox_reg.append(torch.exp(bbox_pred))
        return logits, bbox_reg, centerness

關於在迴歸分支為什麼要有一個指數e的運算，原論文這麼說：

Moreover, since the regression targets are always positive, we employ exp(x) to map any real number to (0, $+\infty+∞) on the top of the regression branch$

關於上面程式碼中的對於bbox_pred縮放，在原論文中只有這麼一塊說到：

可以看到為了能夠繼續在不同級的特徵共享head，這裡把迴歸預測結果乘以一個縮放因子，這個因子是tensor，是可以更新，即可以學習的，當然分類分支不需要。
這裡放一下我打印出來的head部分：

(rpn): FCOSModule(
    (head): FCOSHead(
      (cls_tower): Sequential(
        (0): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
        (1): GroupNorm(32, 256, eps=1e-05, affine=True)
        (2): ReLU()
        (3): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
        (4): GroupNorm(32, 256, eps=1e-05, affine=True)
        (5): ReLU()
        (6): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
        (7): GroupNorm(32, 256, eps=1e-05, affine=True)
        (8): ReLU()
        (9): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
        (10): GroupNorm(32, 256, eps=1e-05, affine=True)
        (11): ReLU()
      )
      (bbox_tower): Sequential(
        (0): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
        (1): GroupNorm(32, 256, eps=1e-05, affine=True)
        (2): ReLU()
        (3): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
        (4): GroupNorm(32, 256, eps=1e-05, affine=True)
        (5): ReLU()
        (6): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
        (7): GroupNorm(32, 256, eps=1e-05, affine=True)
        (8): ReLU()
        (9): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
        (10): GroupNorm(32, 256, eps=1e-05, affine=True)
        (11): ReLU()
      )
      (cls_logits): Conv2d(256, 80, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
      (bbox_pred): Conv2d(256, 4, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
      (centerness): Conv2d(256, 1, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
      (scales): ModuleList(
        (0): Scale()
        (1): Scale()
        (2): Scale()
        (3): Scale()
        (4): Scale()
      )
    )
    (box_selector_test): FCOSPostProcessor()
  )

至此，整個FCOS的網路結構就理清楚了！關於FCOSModule的前向傳播程式碼可以放訓練的部分一起講！

FCOS官方程式碼詳解（二）：Architecture(head)

https://blog.csdn.net/laizi_laizi/article/details/105519290 FCOS官方程式碼詳解（二）：Architecture[head]

FCOS官方程式碼詳解（一）：Architecture(backbone)

FCOS官方程式碼詳解（一）：Architecture[backbone] tools/train_net.py main() train() fcos_core/modeling/detector/detectors.py

graph attention network（ICLR2018）官方程式碼詳解（te4nsorflow）

論文地址：https://arxiv.org/abs/1710.10903 程式碼地址：https://github.com/Diego999/pyGAT 我並沒有完整看過這篇論文，但是在大致瞭解其原理之後就直接看了程式碼= =。

Spring data jpa 的使用與詳解（二）：複雜動態查詢及分頁，排序

上一篇介紹了spring data jpa在spring boot中的基本搭建和整合，以及較為簡單的查詢，這一篇來說spring data jpa中如何實現較為複雜的查詢及分頁，排序。

TransCoder 程式碼詳解（一）：最頂層的main函式

前言 TransCoder是Facebook推出的一個開源的transcompiler模型，其作用是給定一個以某種程式語言寫成的函式，將它轉換為另一種程式語言的形式，並保留其原本的功能。目前TransCoder支援的語言有C++、Java和Python。

TransCoder程式碼詳解（三）：DAE/BT的訓練過程

前言 ATP的上一篇blog裡講了這個模型是怎麼用Masked Language Model進行預訓練的。其實就跟BERT的方法一樣。

JS 原型與原型鏈終極詳解（二）

四. __proto__ JS 在建立物件（不論是普通物件還是函式物件）的時候，都有一個叫做__proto__ 的內建屬性，用於指向建立它的建構函式的原型物件。

Redis詳解（二）- redis的配置檔案介紹

目錄 1、開頭說明 2、INCLUDES 3、MODULES 4、NETWORK 5、GENERAL 6、SNAPSHOTTING 7、REPLICATION 8、SECURITY

Spring5詳解（二）——Spring的入門案例HelloSpring

在上一章內容中，詳細的介紹了什麼是Spring，Spring的歷史與發展和Spring的一些特點。所以這一章我們來建立一個Spring的入門案例HelloSpring。1、建立專案首先我們建立一個名稱為Hello_Spring的Maven專案。2、匯入

Solon詳解（二）- Solon的核心

Solon的核心在上篇中我們成功運行了一個簡單的web應用；本篇將對它的啟動過程、擴充套件體系和應用屬性配置進行介紹。

五，iptables詳解（5）：iptables匹配條件總結之二（常用擴充套件模組）

　　前文已經總結了iptables中的基本匹配條件，以及簡單的擴充套件匹配條件，此處，我們來認識一些新的擴充套件模組。

Java虛擬機器詳解（二）------執行時記憶體結構

　　首先通過一張圖瞭解Java程式的執行流程　　關於這幅圖涉及到的：　　①、class檔案

Java多執行緒詳解（二）------如何建立程序和執行緒

1、在 Windows 作業系統中建立程序　　在 windows 作業系統中，我們建立一個程序通常就是開啟某個應用軟體，這便在電腦中建立了一個程序。更原始一點的，我們在命令提示符中來做（我們以開啟記事本這個程序為例）：

Servlet詳解（二）

目錄Request物件1.request和response物件：2.request物件繼承體系結構：3.什麼是HttpServletRequest ？4.HttpServletRequest物件的常用方法：5.Request物件接收的引數是亂碼？6.請求轉發：7. 共享資料

用命令來操作vSphere:四命令詳解（二）

下面介紹幾個常用網路命令。 1.esxcfg-nics 功能：用來調整ESX中網絡卡引數。 2.esxcfg-route

Apache Calcite 優化器詳解（二）

什麼是查詢優化器查詢優化器是傳統資料庫的核心模組，也是大資料計算引擎的核心模組，開源大資料引擎如 Impala、Presto、Drill、HAWQ、 Spark、Hive 等都有自己的查詢優化器。Calcite 就是從 Hive 的優化器

JVM詳解（二）-- 第2章類載入器子系統

一、JVM記憶體結構 1.1 記憶體結構---概略圖 1.2 記憶體結構--詳細圖二、類載入器子系統的作用

Mysql基礎（十三)：sql語句執行步驟詳解（二）SQL邏輯查詢語句執行順序

1 SQL邏輯查詢語句執行順序還記得上面給出的那一長串的SQL邏輯查詢規則麼？那麼，到底哪個先執行，哪個後執行呢？現在，我先給出一個查詢語句的執行順序：

Sharding-JDBC分片策略詳解（二）

一、分片策略 https://shardingsphere.apache.org/document/current/cn/features/sharding/concept/sharding/

前端之canvas詳解（二）——圓和矩形的畫法

一、用canvas畫圓弧用canvas畫圓弧畫圓弧有兩種方法： 1、arc(x, y, r, startAngle, endAngle, anticlockwise): 以(x, y) 為圓心，以r 為半徑，從 startAngle 弧度開始到endAngle弧度結束。anticlosewise 是布林值，

FCOS官方程式碼詳解（二）：Architecture(head)

FCOS官方程式碼詳解（二）：Architecture[head]

fcos_head

相關推薦