본문 바로가기

전체 글

(180)
[week8] Applying PCA A. Reconstruction from compressedREpresentation 1. z라는 축소된 벡터를 얻는 방법을 알았다. 그렇다면 어떻게 다시 2차원의 백터로 돌아갈 수 있을까? 2. 식에서 볼 수 있다시피, 축소된 백터를 얻을 때 사용되었던 U_reduce라는 좌측 특이벡터를 이용하여, 본래 X의 근사한 값을 구할 수 있다. 이를 Construction(복원)이라 한다. B. choosing the Number of principa componet 1. 얼마나 축소할 지 결정하기 위해서는, 축소 결과가 본래의 데이터를 얼마나 포함하고 있는지를 알아야 한다. 2. 여기서도 사용되는 비용함수의 개념, 위에서 보이는 식에서 분모를 본래정보, 분자를 축소된 정보를 이해하면 되겠다. 분자에서 차이값..
[week8] Principal Component Analysis A. Principal Component Analysis Problem Formation 1. 차원 축소 중 하나가 PCA라는 방법이다. 위에 X표시 된 2차원의 데이터를 1차원의 데이터로 축소하기 위해서는 하나의 기준 점이 필요하게 된다. 2. 평면 위에 여러 직선들이 가능하다. 빨강 선과 보라색 선이 보이 있다고 가정할 때 어떤 직선이 축소되기에 적절할까? 3. 정답은 빨강색 선이다. 왜냐하면, 데이터는 직선위로 수직으로 투영되며, 그 거리가 멀수록 비용은 커지게 된다. 즉 의미 변화, 데이터 손실이 많아진다는 뜻이다. 1. 오 이거 선형회귀랑 똑같은거 아니야? 생각할 수 있지만, 둘의 오차를 구하는 방식이 다르다. 선형회귀는 모델의 예측값과 y값의 차이로서 비용함수를 산정하지만, PCA는 직교(최단..
[week8] Data Compression A. Motivation 1: Data Compression 1. Data의 차원을 줄임으로써, 불필요한(redundunt)한 데이터를 줄일 수 있게 된다. 즉, 의미를 가지기 위해서는 모호해질 필요가 있다는 뜻이다. B. Motivation 2: Visualization 1. 시각화, 인간이 이해할 수 있는 형태를 만들기 위해서라도 차원축소는 필요하다. 2차원으로 축소를 함으로써, 의미가 축약된다. 2. 위에서 보이는 것처럼, 나라의 활동성이라는 의미가 2차원으로 축소되어 시각화 될 수 있다.
[week8] Clustering A. K-Means Algorithms 1. 레이블이 없을 때, 사용되는 비지도학습 중 첫 번째인 K-Means Clsutering이다. 원리는 간단하다. 각 군집의 중심을 찾는 것이다. 다만 군집의 개수를 정해주어야 한다. 1. K-means algorithm은 간단하다. 첫 째, 몇 개의 클러스트를 만들지 정한다. K를 설정 한후, 임의의 중심 값을 설정한다. 2. 각 x는 가장 가까운 임의의 중심으로 할당 된다. 3. 군집으로부터 중심 값을 재설정한다. 4. 중심의 변화가 거의 없을 때까지 반복한다. B. Optimization Objective 1. K-means algorithms의 최적화는 간단하다. 각 X의 할당된 중심 값으로 부터의 거리의 합이 최소가 되도록 하는 것이다. 2. 중심 값이 ..
[Intuitive Biostatistics] 변수의 종류 일단 신재하는 사실을 얻어라 그다음 당신이 원하는 대로 그 사실을 변형하라
[Intuitive Biostatistics] 연속자료를 그래프로 그리기 더보기 당신이 이야기하는 바를 측정한 후 숫자로 표현하면, 그것ㅇ 대해 무엇인가 알게 된다. 하지만 말고하자 하는 바를 측정할 수도 숫자로 표현할 수도 없다면, 당신의 지식은 형편없고 불만족스로운 것이다. Lord Kelvin A. 연속자료 1. 자료를 분석할 때의 핵심은 취급자료의 특성에 맞는 분석법을 선택하는 일이다. B. 평균과 중앙값 1. 평균은 자료의 중앙이나 중심 경향성(central tendency)를 정렬화하는 한 방법으로, 유일한 방법은 아니다. 2. 중앙값은 가운데 값이다. 자료를 가장 작은 값부터 가장 큰 값까지 순위를 매긴 후 가운데 순위를 알아낸다. 자료가 자수일 경우 가운데 두 값의 평균을 낸다. 3. 기하평균은 모든 값을 로그로 변환한 후 이 로그값의 평균을 내는 것이다. 로그..
[Intuitive Biostatistics] 계수자료의 신뢰구간(포아송 분포) 0. 사건들이 서로 독립적으로 무작위로 발생하면서 시간에 따른 발생률이 변하지 않는다면 특정 시간 동안 발생한 사건의 수는 포아송분포를 따르게 된다. 실제 관찰된 발생 사건으로부터 신뢰구간은 단위시간당 발생하는 사건의 수로 계산될 수 있다. 또한 포아송분포는 특정 부피에 포함되는 물체의 평균 개수의 신뢰구간을 계산할 때도 사용된다. A. 포아송분포 1. 어떤 결과는 특정 부피에 포함된 사물의 수나 특정 시간 도안 일어난 사건의 수로 표현된다. 예를 들어, 한 산부인과 병동에서 매일 태어나는 신생아 수나, 한 ㅎ현미경 시야에서 보이는 호산구 수 등이 있다. 2. 시간이나 특정 부피 안의 사물을 반복적으로 추출하면 사건 혹은 사물의 수는 매번 달라지리라는 것은 쉽게 예상할 수 있다. 이런 무작위분포는 포아송..
[Intuitive Biostatistics] 비율의 신뢰구간 A. 비율로 표현되는 자료 1. 심근경색을 경험한 환자 중 심주전까지 진행하는 비율, 특정 과목을 이수하는 학생의 비율, 동전던지기에서 앞면이 나오는 비율 등이 있다. B. 이항분포 : 집단에서 표본으로 1. 동전던지기를 공정하게 시행할 경우 앞면과 뒷면이 나올 확률은 각각 50%다. 동전던지기를 계속 한다면 결국 앞면이 나오는 만큼 뒷면이 나온다는 의미다. 하지만 연속된 상황에서, 앞면만 나오거나 뒷면만 나올 수도 있다. 2. 전체 모집단에서 사건이 일어날 비율을 알면, 이항분포를 사용하여 특정결과를 관찰할 우도를 계산할 수 있다. C. 신뢰구간 : 표본에서 비율로 1. 표본수가 더 많은 모집단에서 자료를 수집할 경우, 미숙아의 생존률은 변할 것이다. 그렇다면 표본을 통한 생존률과 실제 모집단의 생존률..