Testing을 어떻게 해야하느냐?
Binomial classifier 에서는 위의 도표처럼 4가지 발생할수 있는 case가 있다.
그러면 노란색 상자의 2가지 경우의 에러가 발생할수 있다.
Classifer 마다 중요도가 다를수 있다.
Spam filer의 경우 스팸으로 인지가 된것은 무조건 스팸이어야 한다. 조금이라도 불확실하면 스팸으로 안보내졌으면 한다.
즉 실제스팸이다 => True
Classifer 가 Negative 라고 이야기 했으면 스팸메일인데 아직 받은메일함에 있다는 것이다.
그리고 실제 스팸이 아니다. => False
그런데 Classifer 가 Positive 로 판정한다면 False / Positive 에러가 발생한것이다.
False / Negative 에러가 나면 이해하고 넘어갈수 있지만 , False / Postive는 절대 일어나면 안된다.
즉 False / Postive 에러를 줄이려는 노력이 중요하다. (연두색박스 부분) 이것을 Precision 이라 한다.
CRM 의 경우 무엇이 중요할까? 만명의 손님이 있을때 1명만이 VIP라고 가정해보자. 만명중에 1명을 찾기란 정말 어렵다. 우리가 놓치지 말아야할것은 진짜 VIP 1명이다. 즉 False / Negative 에러가 발생하면 안된다. 즉 Recall이 중요하다.
Precision 과 Recall을 합쳐서 생각해 볼수 있지 않을까? 그것이 F-Measure 이다.
F- Measure는 Precision 과 Recall 둘다 동일하게 중요시하다고 생각하는것이다.
'머신러닝 > 문일철 교수님 강의 정리 (인공지능및기계학습개론)' 카테고리의 다른 글
Week 6.7. Application of Regularization (0) | 2019.08.21 |
---|---|
Week 6.6 Definition of Regularization (0) | 2019.08.19 |
Weeek 6.4 Cross Validation (0) | 2019.08.17 |
Week 6.3 Occam's Razor (0) | 2019.08.17 |
Week 6.2. Bias and Variance (0) | 2019.08.10 |