1. Vectorization
1. 우리가 위에서 공부했던 것은 간단하게 행렬로 표시될 수 있다. 컨텐츠의 피쳐를 담은 X행렬과 사용자의 성향을 담은 세타 행렬의 곱을 통해서 말이다.
2. 이것을 Low Rank Matrix factorization이라고 한다.
1. 이 행렬을 통해서, 비슷한 유저, 비슷한 컨텐츠에 대해서도 찾을 수 있다. 벡터화 되어 있기 때문에, 위치가 비슷한 곳에 있다면, 그 둘은 비슷한 특징을 지니는 것이다.
B. implementational Detail : Mean Normalization
1. 아무 데이터도 없는 사용자가 있다면 어떻게 추천을 해야할까? 그것을 막기 위해서 각 컨텐츠별 평점의 평균을 예측시 더해 주면, 아무 기록이 없는 사용자에게도 추천이 가능하다.
2. 그렇다면, 기록이 있는 사용자는 어떻게 되는거지? 아무래도 상관 없으려나, 점수의 상대성은 똑같기 떄문에. 안본 것에서 추천을 해줘야 하는데, 모두다 똑같이 더해준다면 결국에도 큰 것은 큰 것이기 때문이니 말이다.
'2019년 혁신성장 청년인재 집중양성(빅데이터) > [COURSERA] Machine Learning Stanford Uni' 카테고리의 다른 글
[week10] online learning (0) | 2019.11.15 |
---|---|
[week10] learning with large datasets (0) | 2019.11.14 |
[week9] Collaborative Filtering (0) | 2019.11.07 |
[week9] Predicting Movie Rating (0) | 2019.11.07 |
[week9] Building an Anomaly Detection System (0) | 2019.11.07 |