본문 바로가기

전체 글

(180)
[통계학 스터디] 20191013. 불편성, 효율성, 일치성, 충분성, 점추정, 구간추정 0. 오늘 스터디에서는 통계학의 기본적인 내용인 점추정과 구간추정에 관한 이야기를 나누었다. 알고 있다고 생각되는 내용에도 허점이 많음을 느꼈다. 추정량의 조건 1. 불편성(Unbiasedness) 탁월한 추정량은 추정량의 평균이 추정모수와 일치해야한다. 당연한 소리다. 이는 표본을 제대로 뽑아 실험했으면 반드시 만족하는 성질이다. 2. 효율성(Efficiency) 불편추정량은 여러 개일 수 있다. 하지만 그 중에서도 효율적인 불편추정량은 분산이 적은 추정량이다. 3. 일치성(Consistency) 표본크기가 무한히 증가할 때, 추정량은 모수에 근접하려는 특성을 지닌다. 4. 충분성((Sufficiency) 추정량은 모수에 관한 모든 정보를 포함해야 한다. 점추정과 구간추정 1. 분포라는 가정 만일 주목..
[week6] Handling Skewed Data A. Error Metrics for Skewed Classes 1. 암 진단과 같이 암이 아닌 클래스가 극도로 적을 때는 어떻게 정확도를 확인해야 할까? 암일 확률이 0.05라면, 그냥 암이 없다고만 하더라도 99.5 %의 확률로 정답을 맞출수 있다. 이런 경우 Accuracy보다는 Recall과 Precision이라는 척도를 사용한다. Precision은 알고리즘의 정밀도를 말하며, 긍정으로 예측한 것들 중 실제로 긍정인 것의 개수의 지수이며, Recall은 실제 긍정인 것들 중, 실제 긍정인 것의 비율 지수이다. 이 지표를 봄으로써, 치우쳐진 데이터 클래스라도 정확도를 확인할 수 있데 된다. B. Using Large Data Sets 1. 알고리즘을 조정함으로써, 판단을 내리는 임계점을 수정할 수..
[week6] Building a Spam Clasifier A. Prioritizing What to Work on 1. 스팸분류기를 만들 때 10,000~50,000개로이루어진 원핫 벡터를 이용하여 만든다. 2. 어떻게 이 분류기의 성능을 향상 시킬 수 있을까? 1) 데이터를 많이 모은다 2) 머리를 써서 좋은 피쳐를 만든다. 3) 알고리즘을 조지는 걸 하나 만든다. 이 중 뭘 해야할지는 나도 모른다. B. Error Analysis 1. 시간을 효율적으로 사용하고, 러닝의 영감을 얻기 위해선는 빠르고 더럽게 아이디어를 적용하여 보고 결과를 확인 한뒤, 어디에다 시간을 쓸 것인지 정해야 한다. 2. 간단한 알고리즘으로 시작해라! 검증요 데이터로 실험을 적용하고, 러닝 커브를 그려 행동을 결정하라. 3. 또, 에러들을 수동으로 조사하여서 취약적ㅁ을 파악하고, 그..
[week6] Evalutating a Learning Algorithm A. Bias vs. Variance 1.기계학습에 뭔가 문제가 있다면, 그 문제는 bias(선입관) 또는 variance(분산) 둘 중 하나 떄문이다. 2 이 선입관과 분산성을 구분해줄 필요가 있다. 3. 모델이 선입견이 심하다면 설명력이 약해진다(underfitting). 모델이 높은 가변성을 가지면 이는 트레인 데이터에 과도하게 아부하는 꼴이 된다. 선입견이 강해지면 트레인에 대한 설명력이 강해지는 대신, 테스트에 대한 설명력은 약해지게 되는 것이다. 적절한 타협이 필요하다. 4. 항수가 높아질수록 오류는 줄어드는 경향이 있다, 동시에 어떤 지점까지 테스트의 오차 또한 줄어들며, 이 지점이 지나면 볼록한 커브를 형상하며 다시 증가하게 된다. B. Regularization and Bias/Varia..
[Intuitive Biostatistics] CHAPTER 1 통계학과 확률은 직관적으로 이해하기는 어렵다. 1. 우리는 바로 결론으로 건너뛰려 한다. 하나의 표본에서 모집단으로 일반화하는 능력은 인간의 뇌가 본래부터 지닌 것으로 8개월 영아에게서도 관찰된다. 제한된 자료로부터 결론을 내리려는 강력한 본능에 저항하는 방편으로 과학자는 통계학을 사용할 필요가 있다. 주어진 정보를 통해 판단을 내리려는 본능은 그런데로, 생존에 도움을 주었던 것일까. 2. 우리는 과신하는 경향이 있다. 우리는 자신의 생각을 과신하는 경향이 있으므로, 과학자는 통계학을 이용하여 자신들이 이룬 결론이 갖는 확실성을 적절하게 정량화할 필요가 있다. 생각을 과신한다. 자신이 만들어낸 정보에 편향되는 경향이 있다. 당연한가? 가장 많이 만나는 정보가 가장 많이 나의 생각에 영향을 주니. 3. 우리는 무작위자료에서 패턴을 본다. 대부분의 사람..
sklearn Doc2Vec 라이브러리 parameter 1 2 3 4 5 >>> from gensim.test.utils import common_texts >>> from gensim.sklearn_api import D2VTransformer >>> >>> model = D2VTransformer(min_count=1, size=5) >>> docvecs = model.fit_transform(common_texts) # represent `common_texts` as vectors http://colorscripter.com/info#e" target="_blank" style="text-decoration:none;color:white">cs 파라미터 https://radimrehurek.com/gensim/sklearn_api/d2vmodel.ht..
[week6] Evaluating a Learning Algoritm * gut feeling 직감 Deciding What to try Next 1. 예측을 했다~ 결과가 거지 같다~ 어떻게 할까~ 2. 1) 트레인 수를 늘린다. 2) 피쳐를 덜 사용한다. 3) 추가적인 피쳐를 사용한다. 4) 폴리노미얼한 피쳐를 더한다. 5) 러닝 레이트를 감소 시키거나 증가시킨다. 3. 보통 사람들은 트레인 데이터를 더 모으거나, 피쳐를 더 모으거나, 아니면 직감에 의존해서 여러가지 파라미터를 수정한다. 1. 그러지 말라! 감에 의존하지 말라! 진단을 해라! 2. 진단을 통해 알고리즘으로 부터의 통찰을 얻을 수 있고, 어떤 파라미터를 조정해야 하는지에 대한 정보를 얻을 수 있다. 3. 진단은 시간이 들 수 있으나, 감에 의존한 시간 보다는 훨씬 좋다. Evaluating Hypothe..
[통게학 스터디] 확신 오차 불확도 자유도 T통계량 F통계량 1. 확신할 수 있는 것은(Confidence) 내가 통계학 스터디에 참여하면서 한 가지 드는 확신은, 내가 무엇을 모르고 있는지 알 수 있겠다는 확신 뿐이다. 2. 오차(Error)와 불확도(Uncertainity) 추정값에 대해 정확히 알고 있을 때, 즉 참값을 알고 그것에 대해 추정했을 때만 "오류"라는 용어를 쓸 수 있고, 추정값의 참값을 모를 때에는 불확도(Uncertainty)를 사용해야 한다. 두 단어의 철학은 다르다. 3. 자유도(Degree of Freedom) 표 안의 각 a~f 값들은 얼마나 자유로울까? 각 값들은 서로 연관되어 있기 때문에 하나의 값이 정해지면, 다른 값들이 선택될 수 있는 자유도가 떨어지게 된다. 위의 예에서는 2개의 값이 결정되면 나머지 모든 값이 결정되기 때문에..