[week6] Building a Spam Clasifier

A. Prioritizing What to Work on

1. 스팸분류기를 만들 때 10,000~50,000개로이루어진 원핫 벡터를 이용하여 만든다.

2. 어떻게 이 분류기의 성능을 향상 시킬 수 있을까? 1) 데이터를 많이 모은다 2) 머리를 써서 좋은 피쳐를 만든다. 3) 알고리즘을 조지는 걸 하나 만든다. 이 중 뭘 해야할지는 나도 모른다.

B. Error Analysis

1. 시간을 효율적으로 사용하고, 러닝의 영감을 얻기 위해선는 빠르고 더럽게 아이디어를 적용하여 보고 결과를 확인 한뒤, 어디에다 시간을 쓸 것인지 정해야 한다.

2. 간단한 알고리즘으로 시작해라! 검증요 데이터로 실험을 적용하고, 러닝 커브를 그려 행동을 결정하라.

3. 또, 에러들을 수동으로 조사하여서 취약적ㅁ을 파악하고, 그 취약점으로 부터 아이디어를 만들어라. 예를 들면 500개의 메일 중 100개의 메일에 대해서 오분류를 했다고 하자. 그렇다면 이 100개의 오류를 분류하고, 어떤 종류의 메일을 분류하지 못했는지 조사한다. 그리고 이 조사들로부터 통찰을 얻을 수 있을 것이다. 그 오류에서 피쳐를 뽑아 낸다던가..

'2019년 혁신성장 청년인재 집중양성(빅데이터) > [COURSERA] Machine Learning Stanford Uni' 카테고리의 다른 글

[Week7] Large Margin Classfication (0)	2019.10.28
[week6] Handling Skewed Data (0)	2019.10.11
[week6] Evalutating a Learning Algorithm (0)	2019.10.10
[week6] Evaluating a Learning Algoritm (0)	2019.10.06
[week5] Neural Networks : Learning, Cost Function and Backpropagation (0)	2019.10.03

노루의 발자국

[week6] Building a Spam Clasifier

'2019년 혁신성장 청년인재 집중양성(빅데이터) > [COURSERA] Machine Learning Stanford Uni' 카테고리의 다른 글

티스토리툴바

[week6] Building a Spam Clasifier

'2019년 혁신성장 청년인재 집중양성(빅데이터) > [COURSERA] Machine Learning Stanford Uni' 카테고리의 다른 글

'2019년 혁신성장 청년인재 집중양성(빅데이터)/[COURSERA] Machine Learning Stanford Uni' Related Articles

티스토리툴바