タイトル : Why does unsupervised pre-training help deep learning? (2010)

http://www.jmlr.org/papers/volume11/erhan10a/erhan10a.pdf

著者はBengioさんのグループ。 2010年とこの業界的にはかなり前のやつだが、読まないといけない事情があるので読んでみる、ジャーナルなので結構長いが頑張って読む。

概要

最近ディープラーニングが、特に画像とか言語とかでまじで強いけど、いい結果のものは大抵教師あり学習のタスクであっても、教師なしの過程も含んでいる。で、なぜ教師なし学習が有効なのか？ってことを調べたい。モデルの構造、容量、訓練データの数等について、いくつか仮説を立てて実験してみる。実験によって、汎化性能が高くなるような最適解により行きつきやすくなること、教師なし学習は正則化と考えられるだろうことを示した。ということらしい。

↑
この間2日ぐらい
↓
全部読むのは疲れてやめました。
ちなみに今回の教師なしの事前学習と同じ効果がReLUによって行えていて、さらに学習時間も速くなるというのが以下。
いわゆるみんな大好きなReLUが出てきた論文。

proceedings.mlr.press

自分が機械学習とかに触れ始めたころはReLUがファーストチョイスで当たり前のように使われていたがこういった流れだったのかと。ちなみに上の論文はLecun、Hinton、Bengioさんというオールスターによる2015年のNatureの論文の中で触れられている。歴史を感じた。

Deep learning | Nature