Pythonとtensorflow.kerasを使ってMNISTの手書き文字認識をやる方法

2023.01.18 2022.10.15

学習者の本日のチュートリアルでは、sklearn のデータセットにある MNIST データセットから、手書きの数字を認識する方法を学びます。

数字を認識するために、CNN（Convolutional Neural Networks）を使用します。

まず、CNNが何であるかを理解することから始めましょう。

畳み込みニューラルネットワークとは？
1. 畳み込みニューラルネットワークの使用例
手書き文字認識用データセットの読み込みと準備
モデルの構築
モデルのコンパイルとフィッティング
結果を可視化する
まとめ

畳み込みニューラルネットワークとは？

CNNは、多層パーセプトロンに基づく計算タスクのための最も重要なニューラルネットワークモデルの1つです。

これらのモデルは、画像の処理に特に優れた性能を発揮します。

例えば、手書きの認識。

手書き文字認識は、ニューラルネットワークの最も基本的で優れた用途の1つです。

畳み込みニューラルネットワークの使用例

CNNは画像処理などの分野で重要な役割を担っている。

検出や予測に強力なインパクトを与えています。

半導体の製造のようなナノテクノロジーでも使われている。

ここでは、材料の欠陥を検出するために使用されています。

CNNをKerasやTensorflowと一緒に使えば、様々な分類アルゴリズムと比較して最高の精度を得ることができる。

CNNとバックプロパゲーションアーキテクチャを組み合わせると、MNISTデータセットで、他のどのデータセットよりも高い精度が得られる。

CNNを用いた新しいアプリケーションは、研究によって日々開発されている。

ドイツでは、CNNを用いた交通標識認識モデルが提案されている。

手書き文字認識用データセットの読み込みと準備

今回使用するデータセットには、約6万枚のトレーニング画像と約1万枚のテスト画像が含まれています。

そして、このデータをトレーニング用とテスト用のデータセットにそれぞれ分割します。

x_trainとx_testには画像のピクセルコードが、y_testとy_train`には0から9の数字を表すラベルが格納されています。

ここで、データセットの形状がCNNモデルで使用するのに適しているかどうかを確認する必要があります。

データサイズは(60000,28,28)となっており、28×28ピクセルの画像が60000枚あることになります。

しかし、Keras APIを使用するためには4次元配列のデータセットが必要なので、3次元データを4次元データセットに変換する必要があります。

import tensorflow as tf

(x_train, y_train), (x_test, y_test) = tf.keras.datasets.mnist.load_data()
 
x_train = x_train.reshape(x_train.shape[0], 28, 28, 1)

x_test = x_test.reshape(x_test.shape[0], 28, 28, 1)

input_shape = (28, 28, 1)

次に、データの正規化を行います。

まず、データをfloatに変換し、255（RGBコードの最大値-RGBコードの最小値）で割って正規化します。

x_train = x_train.astype('float32')

x_test = x_test.astype('float32')
 
x_train /= 255

x_test /= 255

この記事もチェック：Pythonのfloat関数を使って整数や文字列を浮動小数点に変換する方法

モデルの構築

この記事では、Keras APIを使用してモデルを構築します。

そのために、KerasからSequential Modelをインポートして、以下のような複数のレイヤーを追加します。

Conv2D
MaxPooling
平坦化
ドロップアウト
密

Dropout層はオーバーフィッティングを抑制し、Flatten層は2次元配列を1次元配列に平坦化します。

from tensorflow.keras.models import Sequential

from tensorflow.keras.layers import Dense, Conv2D, Dropout, Flatten, MaxPooling2D

model = Sequential()

model.add(Conv2D(28, kernel_size=(3,3), input_shape=input_shape))

model.add(MaxPooling2D(pool_size=(2, 2)))
model.add(Flatten())

model.add(Dense(128, activation=tf.nn.relu))

model.add(Dropout(0.2))

model.add(Dense(10,activation=tf.nn.softmax))

モデルのコンパイルとフィッティング

さて、これで最適化されていない空のCNNを作成しました。

次に、あるメトリックを利用した損失関数でオプティマイザを設定し、作成した訓練データセットを用いてモデルを適合させます。

ADAMオプティマイザは、他の類似のオプティマイザよりも優れています。

model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

model.fit(x=x_train,y=y_train, epochs=10)

学習過程の結果は以下の通りです。

import matplotlib.pyplot as plt

plt.style.use('seaborn')
 
plt.figure(figsize=(10,10))

plt.subplot(4,4,1)

image_index = 2853

predict = x_test[image_index].reshape(28,28)

pred = model.predict(x_test[image_index].reshape(1, 28, 28, 1))

plt.imshow(x_test[image_index].reshape(28, 28),cmap='Greys')

plt.title("Predicted Label: "+str(pred.argmax()))
 
plt.subplot(4,4,2)

image_index = 2000

predict = x_test[image_index].reshape(28,28)

pred = model.predict(x_test[image_index].reshape(1, 28, 28, 1))

plt.imshow(x_test[image_index].reshape(28, 28),cmap='Greys')

plt.title("Predicted Label: "+str(pred.argmax()))
 
plt.subplot(4,4,3)

image_index = 1500

predict = x_test[image_index].reshape(28,28)

pred = model.predict(x_test[image_index].reshape(1, 28, 28, 1))

plt.imshow(x_test[image_index].reshape(28, 28),cmap='Greys')

plt.title("Predicted Label: "+str(pred.argmax()))
 
plt.subplot(4,4,4)

image_index = 1345

predict = x_test[image_index].reshape(28,28)

pred = model.predict(x_test[image_index].reshape(1, 28, 28, 1))

plt.imshow(x_test[image_index].reshape(28, 28),cmap='Greys')

plt.title("Predicted Label: "+str(pred.argmax()))

evaluate`関数を用いてモデルを評価したところ、98.4%の精度を確認することができました。

結果を可視化する

最後のステップは、学習したモデルの結果を可視化し、subplotsを使ってそれらをプロットすることです。

以下はそのコードと出力です。

結果はかなり正確であることがわかります。

まとめ

この記事では、CNNを統合した手書き数字認識モデルを作成しました。

そして、その精度はかなり良いものでした。

お読みいただきありがとうございました。