Why does unsupervised pre-training help deep learning?

日本語で書いていくことにした。英語で書くのが煩わしさに繋がっていた気がする、そもそも英語で書く意味あんまなかった。

 

今回の論文↓

タイトル : Why does unsupervised pre-training help deep learning? (2010)

http://www.jmlr.org/papers/volume11/erhan10a/erhan10a.pdf

 

著者はBengioさんのグループ。 2010年とこの業界的にはかなり前のやつだが、読まないといけない事情があるので読んでみる、ジャーナルなので結構長いが頑張って読む。  

概要

最近ディープラーニングが、特に画像とか言語とかでまじで強いけど、いい結果のものは大抵教師あり学習のタスクであっても、教師なしの過程も含んでいる。 で、なぜ教師なし学習が有効なのか?ってことを調べたい。 モデルの構造、容量、訓練データの数等について、いくつか仮説を立てて実験してみる。 実験によって、汎化性能が高くなるような最適解により行きつきやすくなること、教師なし学習正則化と考えられるだろうことを示した。    ということらしい。


この間2日ぐらい

全部読むのは疲れてやめました。
ちなみに今回の教師なしの事前学習と同じ効果がReLUによって行えていて、さらに学習時間も速くなるというのが以下。
いわゆるみんな大好きなReLUが出てきた論文。

proceedings.mlr.press

自分が機械学習とかに触れ始めたころはReLUがファーストチョイスで当たり前のように使われていたがこういった流れだったのかと。 ちなみに上の論文はLecun、Hinton、Bengioさんというオールスターによる2015年のNatureの論文の中で触れられている。 歴史を感じた。

Deep learning | Nature

 

mini-batch size on deep learning

 

[1804.07612] Revisiting Small Batch Training for Deep Neural Networks

 

According to this paper, mini-batch size is recommended to be less than 32. 

Inductive Representation Learning on Large Graphs

[1706.02216] Inductive Representation Learning on Large Graphs (NIPS 2017)

This paper's contribution is mainly to generate a function, which extracts a feature represeantation on unseen nodes and graphs.

They trained model by a graph, and at an inference time, they use the trained system (i.e., the learned function) to give feature embedding on each node.

Moreover, they invent a unsupervied way of learning, so without specifik label or something like that, they can train model. Of cource they do in supervised manner.

 

In some places, I find ideas similar to node2vec( https://cs.stanford.edu/~jure/pubs/node2vec-kdd16.pdf ). Jure is the last author in this paper, too, so probably they are thanks to his advice.