본문 바로가기

[COURSERA] Machine Learning Stanford Uni

[week6] Building a Spam Clasifier

A. Prioritizing What to Work on

 

 

 

1. 스팸분류기를 만들 때 10,000~50,000개로이루어진 원핫 벡터를 이용하여 만든다.

 

2. 어떻게 이 분류기의 성능을 향상 시킬 수 있을까? 1) 데이터를 많이 모은다 2) 머리를 써서 좋은 피쳐를 만든다. 3) 알고리즘을 조지는 걸 하나 만든다. 이 중 뭘 해야할지는 나도 모른다.

 

B. Error Analysis

 

1. 시간을 효율적으로 사용하고, 러닝의 영감을 얻기 위해선는 빠르고 더럽게 아이디어를 적용하여 보고 결과를 확인 한뒤, 어디에다 시간을 쓸 것인지 정해야 한다.

 

2. 간단한 알고리즘으로 시작해라! 검증요 데이터로 실험을 적용하고, 러닝 커브를 그려 행동을 결정하라. 

 

3. 또, 에러들을 수동으로 조사하여서 취약적ㅁ을 파악하고, 그 취약점으로 부터 아이디어를 만들어라. 예를 들면 500개의 메일 중 100개의 메일에 대해서 오분류를 했다고 하자. 그렇다면 이 100개의 오류를 분류하고, 어떤 종류의 메일을 분류하지 못했는지 조사한다. 그리고 이 조사들로부터 통찰을 얻을 수 있을 것이다. 그 오류에서 피쳐를 뽑아 낸다던가..