[Coursera][Muchine Learning] Gradient Descent 경사 하강법

이 포스팅은 Andrew Ng 교수님의 Machine Learning 강의를 정리했습니다.

경사 하강법(Gradient Descent)

경사 하강법은 비용 함수 J의 최소값을 구하는 알고리즘입니다. 이 알고리즘은 기계 학습의 모든 곳에서 실제로 사용되고 있습니다.

$\theta _{0}$과 $\theta _{1}$ 2가지 파라메터를 사용한 그래프를 사용합니다. 우리는 가장 먼저 θ0과 θ1의 초기값을 추측해야 됩니다.

일반적으로는 초기값을

$ \theta _{0} = {0}$
$ \theta _{1} = {0}$

으로 설정합니다. 이제 경사 하강법에서 값을 조금씩 바꾸며 최소의 비용 함수를 찾아냅니다.

$\theta _{0}$과 $\theta _{1}$을 다른 값으로 초기화 한다면 다른 최적의 결과가 도출 될 수 있습니다.

수학적으로 알아봅니다.

:= 는 할당받는 것을 의미합니다. (a := b 라면 b의 값을 a에 씌운다 라는 뜻)
$ \alpha $(Learning Rate) 는 훈련 비율이라고 합니다. $ \alpha $값이 클수록 움직이는 거리가 증가합니다.
$ \frac{\partial }{\partial \theta _{j}}J(\theta _{0}, \theta _{1} ) $ 는 미분계수입니다.

비용 함수는 $\theta _{0}$과 $\theta _{1}$ 2가지 변수에 의해 영향을 받는데 오른쪽 식과 같이 대입을 하게 되면 $\theta _{1}$ 에 값을 대입할 때 이미 변화된 $\theta _{0}$ 의 영향을 받으므로 왼쪽 식처럼 대입해줘야 합니다.

Gradient Descent Intuition

하나의 파라미터 $ \theta _{1} $ 를 가지고 함수를 최소화한 $ J(\theta _{1}) $ 을 사용합니다.

$ \theta _{1} $ 에서의 기울기는 그 점의 탄젠트(Tangent) 값으로 구할 수 있고 그것이 바로 미분계수입니다. 여기서 기울기는 양수이므로 $ \alpha $ 의 값이 양수라는 것 또한 알 수 있습니다. $ \theta _{1} $ 은 이제 $ \alpha $ 에 기울기(양수값)을 곱한 값이 됩니다. 이런식으로 $ \theta _{1} $ 은 최소값으로 이동하게 됩니다.

이번엔 $ \theta _{1} $ 를 그래프의 왼쪽으로 초기화 해봅니다. 이때의 기울기는 음수값을 가지게 됩니다. $ \theta _{1} $ 은 $ \alpha $ 값에 음수값(기울기) 를 곱한 값이 되므로 오른쪽으로 이동합니다. 이렇게 계속해서 최소값과 가까운 쪽으로 이동하게 됩니다. 이것이 경사 하강법입니다.

이제 $ \alpha $ 에 대해 알아봅니다.