The Fool In The Valleyの雑記帳

-- 好奇心いっぱいのおじいちゃんが綴るよしなし事 --

MNIST Database 

数字認識のための学習用データセットとして、手書き数字の画像を集めたMNIST (Modified National Institute of Standards and Technology) databaseが広く使われています。このデータセットは、文字通り、NISTアメリカ国立標準技術局)の持つ大規模データの部分集合から作られたもののようです。その存在は知っていましたが、これまで実際に使う機会はなかったので具体的にどんなものか詳しく調べたことはありませんでした。データは下記サイトでダウンロードできるので、今回利用してみようと思いたち、どういうものか見てみました。

yann.lecun.com
集められているのは以下のような画像の集合です。

f:id:tfitv:20200807212051g:plain
いくら手書き文字と言ってもこれほど汚い字を集めているとは思いませんでした。(笑)ミミズののたくったようなという形容はまさにこういうもののためにあるのかもしれませんが、これが世界標準の手書き数字なのでしょう。

日本人の書いた数字で読めないということはあまり経験しませんが、外国人の書いた字には「えっ」と驚くような事を経験したことがあります。そもそも字をきれいに書くという意識がどうも希薄だし、そういう訓練をあまりしていないのでしょう。30年前、アメリカで生活していた時、子供たちが通っていた小学校の先生が、数字をひと筆書きでしかもおかしな方向から書くのを見たときにひっくり返りそうになったのを記憶しています。日本では小学校(今では幼稚園?)で、数字の形や書き順を徹底的にたたき込まれますが、あまりそういうことにはこだわらない国も多いのでしょうね。まあ、おおらかと言えばおおらかです。

 今回やりたいのは活字数字の認識なので、こんな学習データで認識器をトレーニングしてたらおかしなことにならないか?という気すらします。
いやいや、これでトレーニングしたなら最強の認識マシンができるのかもしれません。