본문 바로가기

[COURSERA] Machine Learning Stanford Uni

(32)
[week8] Applying PCA A. Reconstruction from compressedREpresentation 1. z라는 축소된 벡터를 얻는 방법을 알았다. 그렇다면 어떻게 다시 2차원의 백터로 돌아갈 수 있을까? 2. 식에서 볼 수 있다시피, 축소된 백터를 얻을 때 사용되었던 U_reduce라는 좌측 특이벡터를 이용하여, 본래 X의 근사한 값을 구할 수 있다. 이를 Construction(복원)이라 한다. B. choosing the Number of principa componet 1. 얼마나 축소할 지 결정하기 위해서는, 축소 결과가 본래의 데이터를 얼마나 포함하고 있는지를 알아야 한다. 2. 여기서도 사용되는 비용함수의 개념, 위에서 보이는 식에서 분모를 본래정보, 분자를 축소된 정보를 이해하면 되겠다. 분자에서 차이값..
[week8] Principal Component Analysis A. Principal Component Analysis Problem Formation 1. 차원 축소 중 하나가 PCA라는 방법이다. 위에 X표시 된 2차원의 데이터를 1차원의 데이터로 축소하기 위해서는 하나의 기준 점이 필요하게 된다. 2. 평면 위에 여러 직선들이 가능하다. 빨강 선과 보라색 선이 보이 있다고 가정할 때 어떤 직선이 축소되기에 적절할까? 3. 정답은 빨강색 선이다. 왜냐하면, 데이터는 직선위로 수직으로 투영되며, 그 거리가 멀수록 비용은 커지게 된다. 즉 의미 변화, 데이터 손실이 많아진다는 뜻이다. 1. 오 이거 선형회귀랑 똑같은거 아니야? 생각할 수 있지만, 둘의 오차를 구하는 방식이 다르다. 선형회귀는 모델의 예측값과 y값의 차이로서 비용함수를 산정하지만, PCA는 직교(최단..
[week8] Data Compression A. Motivation 1: Data Compression 1. Data의 차원을 줄임으로써, 불필요한(redundunt)한 데이터를 줄일 수 있게 된다. 즉, 의미를 가지기 위해서는 모호해질 필요가 있다는 뜻이다. B. Motivation 2: Visualization 1. 시각화, 인간이 이해할 수 있는 형태를 만들기 위해서라도 차원축소는 필요하다. 2차원으로 축소를 함으로써, 의미가 축약된다. 2. 위에서 보이는 것처럼, 나라의 활동성이라는 의미가 2차원으로 축소되어 시각화 될 수 있다.
[week8] Clustering A. K-Means Algorithms 1. 레이블이 없을 때, 사용되는 비지도학습 중 첫 번째인 K-Means Clsutering이다. 원리는 간단하다. 각 군집의 중심을 찾는 것이다. 다만 군집의 개수를 정해주어야 한다. 1. K-means algorithm은 간단하다. 첫 째, 몇 개의 클러스트를 만들지 정한다. K를 설정 한후, 임의의 중심 값을 설정한다. 2. 각 x는 가장 가까운 임의의 중심으로 할당 된다. 3. 군집으로부터 중심 값을 재설정한다. 4. 중심의 변화가 거의 없을 때까지 반복한다. B. Optimization Objective 1. K-means algorithms의 최적화는 간단하다. 각 X의 할당된 중심 값으로 부터의 거리의 합이 최소가 되도록 하는 것이다. 2. 중심 값이 ..
[week7] SVMs in Practice A. Using An SVM 1. SVM을 사용 할 때는 패키지를 사용 할 것, 굳이 손으로 쓰지 말고. 파라미터 C와 어떤 커널을 선택할 것인가가 중요하다. 2. 예를 들면 커널을 쓰지 않는 Linear Kernel 혹은 비선형 분류를 하는 Gaussian kernel등이 있다. 1. 가우시안 커널을 사용할 때에는 특히, 적절한 크기로 피쳐를 조절해주는 것을 잊지 말아야 한다. 왜냐하면, 하나의 피쳐가 너무 크게 되면, 다른 피쳐들이 정확도에 영향을 줄 수 없기 때문이다. 1. 유효한 변환, 커널을 만들기 위한 조건이 Mercer의 이론이다. 2. 다양한 다항식 커널이 유효하며, 잘 이용되지 않는 여러 커널들도 있다. 모르면 구글링 할 것. 1. 로지스틱 리그레션과 같이, 다중 클래스 분류시에는 one..
[week7] Kernel A. Kernels 1 1. 선형적으로 분류가 불가능한 데이터에 대해서, 다항식을 통해 접근 할 수 있지만, 다항식은 비용적으로 비싸다. 그래서 나왔던 것이 ANN이었다. SVM에서는 새로운 피쳐 f를 생성하여 계산의 복잡함을 해결한다. 1. 커널이라는 방법은 유사도라는 새로운 피쳐를 생성하는 것이다. 유사도는 특정한 랜드마크와 얼마나 가까운지로 결정이 된다. 즉, 모든 피쳐는 랜드마크와 가까움의 정도로 0~1사이의 값으로 변환되는 것이다. 1. f1이라는 새로운 피쳐는 랜드마크 1에서 가깝다면 1에 근사하고, 멀다면 0에 근사한다. 1. 이때, f1을 만드는 데 사용되는 시그마가 커질수록, 더욱 완만하게 f1의 값은 변하게 된다. 이러한 분포를 보이는 f를 가우시안 커널이라고 한다. 아마 표준편차인것으..
[Week7] Large Margin Classfication A. Optimization Objective 1. Linear Regression이나 Logistic Regression과 같이, 업계에서 자주 사용되는 최적화 알고리즘 중 하나가 SVM이다. 이 SVM의 수학적인 개념을 살펴 보는 것이 이번 강의의 목표다. 2. Logistic Regression의 비용 함수는 위와 같다. 또 그래프로 그려보았을 때는 파랑색 선과 같다. SVM은 이 파랑 곡선보다, 그에 근사한 보라색 직선을 비용함수로 사용하는 것이다. 1. Logistic Regression의 공식은 위와 같다. SVM은 약간 변형된다. 이전 슬라이드의 직선 그래프를 SVM의 비용함수1, 비용함수 0이라고 할 때, log부분을 치환할 수 있다. 2. 그리고, 식 안의 m을 지운다. m은 상수로서 우..
[week6] Handling Skewed Data A. Error Metrics for Skewed Classes 1. 암 진단과 같이 암이 아닌 클래스가 극도로 적을 때는 어떻게 정확도를 확인해야 할까? 암일 확률이 0.05라면, 그냥 암이 없다고만 하더라도 99.5 %의 확률로 정답을 맞출수 있다. 이런 경우 Accuracy보다는 Recall과 Precision이라는 척도를 사용한다. Precision은 알고리즘의 정밀도를 말하며, 긍정으로 예측한 것들 중 실제로 긍정인 것의 개수의 지수이며, Recall은 실제 긍정인 것들 중, 실제 긍정인 것의 비율 지수이다. 이 지표를 봄으로써, 치우쳐진 데이터 클래스라도 정확도를 확인할 수 있데 된다. B. Using Large Data Sets 1. 알고리즘을 조정함으로써, 판단을 내리는 임계점을 수정할 수..