본문 바로가기

분류 전체보기

(180)
[Intuitive Biostatistics] 표본에서 모집단으로 A. 모집단으로부터 표본 얻기 1. 표본과 모집단을 명확하게 구분하는 것은 통계학을 이해하는 열쇠다. 또 통계학을 배울 때는 통계용어의 특별한 의미를 일상어의 그것과 구분지을 수 있어야 한다. - 질 관리 : 공장에서 많은 물건이 생산된다(모집단). 모집단에서 무작위로 선택한 몇몇 물거만을 검사한다(표본). 표본에서 얻은 결과로 모집단에 대해 추론하게 된다. - 선거 여론조사 : 유권자의 무작의표본은 유권자 전체 모집단에 대한 결론을 얻는데 사용된다. - 임상 시험 : 한 연구에 포함된 연구대상으로부터 얻은 결과는 환자 모집단에서 미래에 발생할 수 있는 일을 예측하는데 유용하게 쓰일 수 있다. - 실험실 실험 : 실허밀에서 얻는 자료는 표본이다. 표본자료로부터 이상적이고 진실에 가까운 상황에 대해 믿을 ..
[Intuitive Biostatistics] 확률의 복잡성 A. 확률의 기초 1. "밖에(out there)"혹은 당신의 머리 밖에(outside your head)에 있는 확률. 장기간 빈도를 의미하는 확률이다. 어떤 특정한 사건이 발생할 확률은 정확한 수치로 표현된다. 하지만 대개의 경우 우리는 사건에 대한 충분한 정보를 얻기 힘드므로, 그 값을 자신할 수 없다. 2. 당신의 머리 안에(inside yout head) 있는 확률. 주관적 믿음의 강도로 표현되는 확률을 말한다. 이는 사람마다 다를 수 있으며, 한 개인에게서도 경우에 따라 차이가 발생하기도 한다. B. 장기간 빈도를 의미하는 확률 1. 모형 한 개에서 얻은 예측으로서의 확률. 모델이 있고, 그 모델에 따른 사건에 대한 예측이다. 모델을 통한 예측이 완벽하지 않더라도 유용할 수는 있다. 2. 자료..
[week7] SVMs in Practice A. Using An SVM 1. SVM을 사용 할 때는 패키지를 사용 할 것, 굳이 손으로 쓰지 말고. 파라미터 C와 어떤 커널을 선택할 것인가가 중요하다. 2. 예를 들면 커널을 쓰지 않는 Linear Kernel 혹은 비선형 분류를 하는 Gaussian kernel등이 있다. 1. 가우시안 커널을 사용할 때에는 특히, 적절한 크기로 피쳐를 조절해주는 것을 잊지 말아야 한다. 왜냐하면, 하나의 피쳐가 너무 크게 되면, 다른 피쳐들이 정확도에 영향을 줄 수 없기 때문이다. 1. 유효한 변환, 커널을 만들기 위한 조건이 Mercer의 이론이다. 2. 다양한 다항식 커널이 유효하며, 잘 이용되지 않는 여러 커널들도 있다. 모르면 구글링 할 것. 1. 로지스틱 리그레션과 같이, 다중 클래스 분류시에는 one..
[week7] Kernel A. Kernels 1 1. 선형적으로 분류가 불가능한 데이터에 대해서, 다항식을 통해 접근 할 수 있지만, 다항식은 비용적으로 비싸다. 그래서 나왔던 것이 ANN이었다. SVM에서는 새로운 피쳐 f를 생성하여 계산의 복잡함을 해결한다. 1. 커널이라는 방법은 유사도라는 새로운 피쳐를 생성하는 것이다. 유사도는 특정한 랜드마크와 얼마나 가까운지로 결정이 된다. 즉, 모든 피쳐는 랜드마크와 가까움의 정도로 0~1사이의 값으로 변환되는 것이다. 1. f1이라는 새로운 피쳐는 랜드마크 1에서 가깝다면 1에 근사하고, 멀다면 0에 근사한다. 1. 이때, f1을 만드는 데 사용되는 시그마가 커질수록, 더욱 완만하게 f1의 값은 변하게 된다. 이러한 분포를 보이는 f를 가우시안 커널이라고 한다. 아마 표준편차인것으..
[Week7] Large Margin Classfication A. Optimization Objective 1. Linear Regression이나 Logistic Regression과 같이, 업계에서 자주 사용되는 최적화 알고리즘 중 하나가 SVM이다. 이 SVM의 수학적인 개념을 살펴 보는 것이 이번 강의의 목표다. 2. Logistic Regression의 비용 함수는 위와 같다. 또 그래프로 그려보았을 때는 파랑색 선과 같다. SVM은 이 파랑 곡선보다, 그에 근사한 보라색 직선을 비용함수로 사용하는 것이다. 1. Logistic Regression의 공식은 위와 같다. SVM은 약간 변형된다. 이전 슬라이드의 직선 그래프를 SVM의 비용함수1, 비용함수 0이라고 할 때, log부분을 치환할 수 있다. 2. 그리고, 식 안의 m을 지운다. m은 상수로서 우..
[통계학 스터디] 20191019 가우스 분포, 중심극한정리, 모수와 통계량, 표준오차, 변동계수 0. 수학적 이해와 개념적 납득 모호하던 개념들이 스터디를 진행할수록 조금씩 잡혀간다. 통계를 공부한다는 것은 어쩌면 수학적인 일보다는 언어적인 일에 더 가깝다는 생각이 들었다. 그렇기 때문에, 수학적인 이해보다, 개념적인 납득이 통계로서 세상을 바라보는 도구로 사용하는 것에 더 도움이 되지 않을까 생각했다. 1. 가우스 분포는 분포다 가우스 분포는 정규 분포라는 용어와 동일하다.가우스 분포는 일단 데이터의 분포이다. 가우스분포는 많은 무작위인자가 변이성을 만들 때 발생한다. 무작위인자들은 서로 보상하는 경향이 있고 어떤 요소들은 값을 크게, 또는 작게 만든다. 대게는 서로 효과가 상쇄하기에 많은 값들은 중심 근처에 분포하게 된다. 간혹, 무적위인자 중 극히 일부만이 같은 방향으로 작용하여 그 자료값을 ..
CNN은 기본적으로 전처리과정과 신경망을 합친 것이 아닌가? https://www.quora.com/Is-Convolutional-Neural-Network-basically-data-preprocessing-via-kernel-plus-Neural-Networks-Isnt-Deep-Learning-just-neural-networks-with-some-pre-processing-for-automated-feature-selections Is Convolutional Neural Network basically data-preprocessing via kernel plus Neural Networks? Isn't Deep Learning just neural ne Answer (1 of 7): I can continue your question, and ask a..
What are nodes in RNN/LSTM, 노드가 뭐냐? https://stats.stackexchange.com/questions/269996/what-are-nodes-in-rnn-lstm What are nodes in RNN/LSTM? In this blogpost "The Unreasonable Effectiveness of Recurrent Neural Networks" the author says, that he is training "a 2-layer LSTM with 512 hidden nodes" for character prediction. So it will look stats.stackexchange.com For fully-connected layers, the number of 'nodes' is the output dimension..