카테고리 없음

[week1] Parameter learning, Gradient Descent Intuition

jhnoru 2019. 9. 12. 17:40

`

 

1. 두 파라미터인 알파(Learning rate)와 보라색 부분인 미분(Derivitive)가 같이 사용됐을 때 어떤 변화가 생기는지에 대해서 공부한다.

 

2. 어떠한 점에서의 미분 계수를 구하는 것은 그 점에서의 tan(탄젠트) 값을 구하는 것이다. 함수의 탄젠트 값이 바로 미분계수이다.

 

1. 최적의 가설을 찾는 다는 것은 비용함수가 최소가 되는 지점을 찾는 것과 같다. 그렇기 때문에 파라미터 세타에 대해서 어떠한 지점의 세타의 미분계수(기울기)를 구하고, 거기에 학습률을 곱함으로써 최소가 되는지점으로 "떨어지게" 만든다. 기울기가 +면 실제 값이 -가 되면서 내려가고, 기울기 -면 기존의 세타의 값에 +가 되면서 최소 값을 찾아간다.

 

 

 

알파 값이 너무 작다면? 너무 많은 이동(반복)이 필요하다. 

알파 값이 너무 크다면? 이 역시 너무 많은 이동이 필요하다. 최소 값을 찾을 수 없고, 길을 일어버린다.

 

 

1. 이미 지역 최솟값이라면, 세타의 값은 바뀌지 않는다.

 

 

1. 학습률이 고정되 있더라도, 경사 하강은 지역 최소 값에 도달할 수 있다.

2. 지역 최소값에 가까워질 수록, 기울기는 작아지기 때문에, 점점 더 작게 지역 최소값으로 이동하게 된다.

3. 요약하자면, 지역최소값에 접근할 수록, 더 작은 거리를 이동하게 된다.

4. 그렇기 때문에 알파 값이 고정되어도 상관 없다.

 

 

1. 비용함수오 기울기 하강을 함께 사용하여 선형회귀의 최적의 가정을 찾아 보자.

 

 

1. 왼쪽은 경사 하강법을 사용하여 최적의 세타(가설)을 찾아가는 알고리즘을 설명한 것이고, 오른쪽은 선형 회귀 모델에에서의 가설 h와, 그에 따른 비용함수 J를 나타낸다.

 

2. 이 때, J의 부분 미분을 적용하는 부분이 경사하강법과 선형회귀의 최적 모델을 구하는 공식의 접점이다.

 

1. 미분을 모른다고 하더라도 상관이 없다. 공식을 외우고 적용하면 된다. 반드시 전기를 쓰기 위해서 전기가 발전된는 과정 모두에 대해서 알 필요는 없는 것처럼 말이다.

 

2. 맨 위부터 보자면, 가설 h에서 실제값 y를 뺀 것의 평균을 구하는 비용함수 공식에 미분을 해준 것이고

그 다음은 가설 h를 세타로 표현되는 식으로 바꿔 준 뒤에, 미분을 하는 것이다.

 

세타 영과 세타 1이 있기 때문에 2번에 걸쳐 미분을 해주어야 한다.

 

 

 

 

1. 세타 0과 세타 1에 대해서 동시적으로 미분을 해야 하며, 파란색 박스는 세타0으로 미분을 한 것이다. 보라색 박스는 t세타 1에 대하여 미분을 한 것이다.

 

2. 어떤 것에 대해서 미분한다는 것은 그 변수가 변할 때, 다른 변수가 얼마나 변하는지에 대한 순간 변화율를 측정하는 것이니까, 

 

3. 기울기하강은 지역 최적값에 민감하다.

 

 

1. 선형회귀의 비용함수는 항상 이러한 convex(볼록) 함수가 된다.

2. 그렇기 때문에 선형함수의 지역 최적값은 존재하지 않는다.

 

 

1. 선형 회귀는 전역적 최솟값 밖에 존재하지 않기 때문에, 경사 하강법에 의해서 반복될 수록, 주어진 데이터를 잘 설명하는 가설 h를 찾게 된다. 즉 데이터를 잘 설명하게 된다.

 

 

1. 이러한 기울기 하강법을 집단 기울기 하강법이라고 한다. 왜냐하면 기울기가 하강 될 떄, 모든 데이터의 오차가 합산되기 때문이라고 한다. 별로 좋지 못한 이름인 것 같다고 교수님은 말했다.

 

 

2. 자료의 크기가 너무 클 때에는, 반복최소이승법이라는 방법을 사용한다고 한다.