はじめに

現代でComputer Visionの研究を行うならば、Deep Neural Network（DNN）の活用は必要不可欠になっています。
僕もその例に漏れず、普段からDNNのpythonライブラリを使用し研究活動を行っています。
DNNのpythonライブラリは様々なものがありますが、昨今では概ねモバイルやWeb用途にはtensorflow、学術研究用途にはpytorchが利用されている印象があります。
また、元々はライブラリ間での学習済みモデルの互換性がなかったのですが、ONNXというDNNの学習済みモデルの共通規格が登場し、相互変換が可能になりました。
OpenCVにもONNXモデルを利活用する機能が標準で搭載されているので、様々な応用が期待されますね。
ONNX | LearnOpenCV

僕は普段他のライブラリを使っているのですが、今回から１からpytorchを勉強していきたいと思います。
最終的には、今まで作った成果物と組み合わせて、より面白いことができたら良いなと思います。

pytorchのインストール

pytorchは公式サイトがとても親切なので、installはとても簡単です。 PyTorch

ページ中段あたりこの様なインターフェスがあるのですが、手元の環境に合わせてボタンをポチポチ押すと、インストールコマンドが生成されます。
f:id:nsr_9:20210825093432p:plain

僕の環境は stable(1.9.0)/Linux/Conda/CUDA10.2だったので、次のようなコマンドが生成されました。

conda install pytorch torchvision torchaudio cudatoolkit=10.2 -c pytorch

pytorchの他に、画像処理や音声信号処理用のライブラリも一緒にインストールしてくれるみたいですね。

チュートリアル

pytorchの公式には素晴らしいチュートリアル資料が提供されています。
今回はこの中でもNeural Networkに関する資料を中心に勉強していきます。

チュートリアル資料ではいきなりNetworkの作成方法から紹介されています。

import torch
import torch.nn as nn
import torch.nn.functional as F


class Net(nn.Module):

    def __init__(self):
        super(Net, self).__init__()
        # 1 input image channel, 6 output channels, 3x3 square convolution
        # kernel
        self.conv1 = nn.Conv2d(1, 6, 3)
        self.conv2 = nn.Conv2d(6, 16, 3)
        # an affine operation: y = Wx + b
        self.fc1 = nn.Linear(16 * 6 * 6, 120)  # 6*6 from image dimension 
        self.fc2 = nn.Linear(120, 84)
        self.fc3 = nn.Linear(84, 10)

    def forward(self, x):
        # Max pooling over a (2, 2) window
        x = F.max_pool2d(F.relu(self.conv1(x)), (2, 2))
        # If the size is a square you can only specify a single number
        x = F.max_pool2d(F.relu(self.conv2(x)), 2)
        x = x.view(-1, self.num_flat_features(x))
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = self.fc3(x)
        return x

    def num_flat_features(self, x):
        size = x.size()[1:]  # all dimensions except the batch dimension
        num_features = 1
        for s in size:
            num_features *= s
        return num_features


net = Net()
print(net)

printの出力は次のようになります。

Net(
  (conv1): Conv2d(1, 6, kernel_size=(3, 3), stride=(1, 1))
  (conv2): Conv2d(6, 16, kernel_size=(3, 3), stride=(1, 1))
  (fc1): Linear(in_features=576, out_features=120, bias=True)
  (fc2): Linear(in_features=120, out_features=84, bias=True)
  (fc3): Linear(in_features=84, out_features=10, bias=True)
)

このネットワークは入力32x32pixの1ch画像を受け付け、3x3の畳み込み２層と全結合が３層（120/84/10）の構成になっています。
Activation関数がちょっと違いますが、LeCun先生が提案したLeNetっぽい構造になっていますね。

このネットワークに32x32[pix]の乱数画像を入力してみます。

x = torch.randn(1, 1, 32, 32)　
net(x)

tensor([[ 0.1166,  0.0518, -0.0581,  0.0346,  0.0151,  0.0182,  0.1204,  0.0446,
         -0.0730, -0.0973]], grad_fn=<AddmmBackward>)

うまく推論できていますね。出力の値自体は乱数入力なので、実行する毎に変化します。
個人的に「お？」って思った事は、入力データの次元の扱いです。
tensorflowやkerasは（バッチサイズ、Height、Width、Channel）というデータ構造なのですが、pytorchでは（バッチサイズ、Channel、Height、Width）のようです。
これはChannel First形式と呼ばれるそうなのですが、うっかりしてると間違えてしまいそうです。