了解卷积神经网络的设计

人工智能2年前 (2023)发布 wangzhan

319 0 34

卷积神经网络在计算机视觉应用中取得了成功。各种网络架构被提出，它们既不神奇也不难理解。

在323导航网的本文章中，您将了解卷积层的操作及其在更大的卷积神经网络中的作用。

完成本教程后，您将学到：

卷积层如何从图像中提取特征
不同的卷积层如何堆叠起来构建神经网络

了解卷积神经网络的设计

概述

本文分为三个部分；他们是：

网络示例
显示特征图
卷积层的影响

网络示例

以下是在CIFAR-10数据集上进行图像分类的程序：

import matplotlib.pyplot as plt

import numpy as np

import tensorflow as tf

from tensorflow.keras.models import Sequential

from tensorflow.keras.layers import Conv2D, Dropout, MaxPooling2D, Flatten, Dense

from tensorflow.keras.constraints import MaxNorm

from tensorflow.keras.datasets.cifar10 import load_data

(X_train, y_train), (X_test, y_test) = load_data()

# rescale image

X_train_scaled = X_train / 255.0

X_test_scaled = X_test / 255.0

model = Sequential([

Conv2D(32, (3,3), input_shape=(32, 32, 3), padding=“same”, activation=“relu”, kernel_constraint=MaxNorm(3)),

Dropout(0.3),

Conv2D(32, (3,3), padding=“same”, activation=“relu”, kernel_constraint=MaxNorm(3)),

MaxPooling2D(),

Flatten(),

Dense(512, activation=“relu”, kernel_constraint=MaxNorm(3)),

Dropout(0.5),

Dense(10, activation=“sigmoid”)

])

model.compile(optimizer=“adam”,

loss=“sparse_categorical_crossentropy”,

metrics=“sparse_categorical_accuracy”)

model.fit(X_train_scaled, y_train, validation_data=(X_test_scaled, y_test), epochs=25, batch_size=32

该网络应该能够实现 70% 左右的分类准确率。图像为 32×32 像素，RGB 颜色。它们分为 10 个不同的类，标签是从 0 到 9 的整数。

您可以使用 Keras 的函数打印网络summary()：

1 2	... model.summary()

在此网络中，屏幕上将显示以下内容：

Model: “sequential”

_________________________________________________________________

Layer (type) Output Shape Param #

=================================================================

conv2d (Conv2D) (None, 32, 32, 32) 896

dropout (Dropout) (None, 32, 32, 32) 0

conv2d_1 (Conv2D) (None, 32, 32, 32) 9248

max_pooling2d (MaxPooling2D (None, 16, 16, 32) 0

)

flatten (Flatten) (None, 8192) 0

dense (Dense) (None, 512) 4194816

dropout_1 (Dropout) (None, 512) 0

dense_1 (Dense) (None, 10) 5130

=================================================================

Total params: 4,210,090

Trainable params: 4,210,090

Non-trainable params: 0

_________________________________________________________________

在图像分类网络中，早期阶段通常由卷积层组成，其中 dropout 层和池化层交错。然后，在稍后阶段，卷积层的输出被一些全连接层展平并处理。

显示特征图

在上面的网络中，有两个卷积层（Conv2D）。第一层定义如下：

1	Conv2D(32, (3,3), input_shape=(32, 32, 3), padding=“same”, activation=“relu”, kernel_constraint=MaxNorm(3))

这意味着卷积层将具有 3×3 内核，并应用于 32×32 像素和三个通道（RGB 颜色）的输入图像。因此，该层的输出将为32个通道。

为了理解卷积层，您可以查看它的内核。该变量model保存网络，您可以通过以下方式找到第一个卷积层的内核：

1 2	... print(model.layers[0].kernel)

这打印：

<tf.Variable ‘conv2d/kernel:0’ shape=(3, 3, 3, 32) dtype=float32, numpy=

array([[[[-2.30068922e-01, 1.41024575e-01, -1.93124503e-01,

-2.03153938e-01, 7.71819279e-02, 4.81446862e-01,

-1.11971676e-01, -1.75487325e-01, -4.01797555e-02,

…

4.64215249e-01, 4.10646647e-02, 4.99733612e-02,

-5.22711873e-02, -9.20209661e-03, -1.16479330e-01,

9.25614685e-02, -4.43541892e-02]]]], dtype=float32)>

model.layers[0]通过将上述输出中的名称conv2d与的输出进行比较，您可以判断这是正确的层model.summary()。该层具有形状的内核(3, 3, 3, 32)，分别是高度、宽度、输入通道和输出特征图。

假设内核是一个 NumPy 数组k。卷积层将采用其内核k[:, :, 0, n]（3×3 数组）并应用于图像的第一个通道。然后应用k[:, :, 1, n]到图像的第二个通道，依此类推。然后，所有通道上的卷积结果相加成为n输出的特征图，其中n，在这种情况下，对于 32 个输出特征图将从 0 运行到 31。

在 Keras 中，您可以使用提取器模型提取每一层的输出。接下来，您将使用一个输入图像创建一批并将其发送到网络。然后看第一个卷积层的特征图：