最適化アルゴリズム 種類や特徴解説 【パラメータの更新】

記事の目的

この記事では、ニューラルネットワークのパラメータの更新に使用する最適化アルゴリズムについて解説します。

 

目次

1. 最適化アルゴリズム概要

1.1 最適化アルゴリズムの役割

この記事で紹介する最適化アルゴリズムは、ニューラルネットワークのパラメータを更新する際に使用されます。ニューラルネットワークのモデルを決定し、損失関数を決定したあとの段階で使用します。パラメータの学習では、損失関数を減少するようにパラメータを更新する必要があります。その役割を果たすのが最適化アルゴリズムです。この記事で紹介する最適化アルゴリズムを使用することで、損失関数が減少するようにパラメータを更新することができるのです。

 

1.2 誤差逆伝播法との関係

最適化アルゴリズムを用いる際に、必ず勾配(損失関数をパラメータで微分した値)を利用します。その勾配を効率的に求める際に利用されるのが誤差逆伝播法です。

 

2. SGD(確率的勾配降下法)

2.1 更新式

$$W \leftarrow W – \eta \frac{\partial L}{\partial W}$$

ηは学習係数であり、パラメータの学習速度を決めます。ηが大きいとパラメータが大きく更新されますが、ηが小さいとパラメータが少ししか更新されません。

 

2.2 利点

利点としては、パラメータを更新するたびにランダムにミニバッチをサンプルを選ぶので、局所最適解に囚われにくくなります。また、更新式がシンプルでコードが簡単で学習状況を比較的容易に把握することができることも利点です。

 

2.3 欠点

欠点としては、関数の形状が等方的でないと勾配の方向が本来の最小値ではない方向を指し非効率な経路で学習してしまうことです。また、学習率が一定で学習の進行状況によって更新量を柔軟に変更できないのも欠点です。

 

3. Momentum

3.1 更新式

$$ v \leftarrow \alpha v – \eta \frac{\partial L}{\partial W} $$

$$ W \leftarrow W + v$$

vは慣性の強さを決める項で、簡単に言えば前回の更新量を影響させる役割を果たします。alphaはその影響の強さを調整するパラメータです。vは物理で言う摩擦や空気抵抗のような項です。

 

3.2 利点

利点としては、新たな更新の際に今までの更新の影響を受けることで急激な変化を防ぐことができることです。

 

3.3 欠点

欠点としては、SGDと比較するとパラメータが2つに増えて設定が大変になります。

 

4. AdaGrad

4.1 更新式

$$ h \leftarrow h + \left( \frac{\partial L}{\partial W} \right) ^2 $$

$$ W \leftarrow W – \eta \frac{1}{\sqrt{h}} \frac{\partial E}{\partial W}$$

hは学習係数を減衰させる項です。上の式からわかるように、hは学習のたびに値が大きくなります。下の式は学習係数にそのhのルートを割っています。これにより、パラメータの更新が進むたびに学習係数の値が小さくなり、学習を緩やかにすることができます。

 

4.2 利点

利点としては、パラメータの更新が進むほど学習速度を緩やかにすることで効率的に学習することができることです。また、パラメータも1つのみで定数の調整が比較的容易です。

 

4.3 欠点

欠点としては、パラメータの更新量が常に減少するため、学習の途中で最適化が進まなくなってしまう場合があることです。

 

 

5. Adam

5.1 更新式

$$m_0 = v_0 = 0$$

$$ m_t = \beta_1 m_{t-1} + (1-\beta_1) \frac{\partial E}{\partial W}   , \hspace{10pt}
v_t = \beta_2 m_{t-1} + (1-\beta_2) \left( \frac{\partial E}{\partial W} \right)^2$$

$$\hat m_t = \frac{m_t}{1-\beta_{1}^{t}} , \hspace{10pt}
\hat v_t = \frac{v_t}{1-\beta_{2}^{t}}$$

$$W \leftarrow W – \eta \frac{\hat m_t}{\sqrt{\hat v_t} + \epsilon}$$

 

5.2 特徴

式は複雑ですが、簡単に言えばMomentumとAdaGradを合わせたような手法です。この手法はとてもよく使用されています。