불균형 데이터셋

인구분포는 0~100세까지 어느정도는 고르게 퍼져있는 상태라고 치자. 그런데, 어떤 앱의 데이터를 분석하고자 했는데 특정한 앱의 연령대가 20대라고 하자. 그리고 이 앱의 데이터로 전체 인구의 특성 (모수)를 파악하고자 해보자. 일단 불균형한 샘플때문에 거의 인구가 20대로 수렴하는 현상이 생긴다.

랜덤하게 나눈 훈련셋과 테스트셋을 대상으로는 불균형 데이터셋을 그렇게 수정하지 않아도 어느정도 정확도가 나오는편이다. (보통 1.0~1.5배 뻥튀기 사이에서는 정확도가 늘어나는 경우가 종종있기도 하다.)

그런데, 우리가 완전히 보지않은 데이터셋은 이와 다른 분포를 지니고 있다. 그렇다고 한다고 해도 훈련셋 자체가 불균형 데이터셋으로 만들어져있어, 현실데이터에서도 한쪽으로 치우치는 결과가 나올 수 있다. 결국 데이터가 아무리 많더라도 진짜 현실에서 맞춰야 하는 태스크에 맞춰서 데이터를 잘라내는게 오히려 도움이 될 수 있다는 뜻.

댓글 남기기