Review/Book

[서평] 통계101 x 데이터 분석 (부제: 마케팅 그리고 데이터)

_tami_ 2024. 4. 14. 16:40

 

[추천도]

 ★  

 

[요약]

-데이터 사이언티스트 입문자에게 유용할 것 같다.

-데이터에 관심이 많은 마케터 입장에선 약간 어려운 내용이었다. (복잡한 수식에 관한 이야기는 스킵하고 보면 볼만하다.)

-통계적 내용, 그래프에 관하여 자세히 알 수 있어 좋았으나 실무 분석에서 그래프가 정석(?)대로 나오지 않는 경우도 있기에 그런 예외 사례까지 확인하기 어려운 점이 아쉬웠다. 

 

[리뷰]

최근 구매연관성 분석, 클러스터링 분석과 같이 머신러닝을 통한 분석 방법에 대한 글을 쓰며 '숫자의 함정에 빠지지 않는 것' 그리고 '그래프를 섣불리 해석하지 말 것'이 2가지를 굉장히 신경 썼다. (평소 분석할 때도 이 부분을 항상 경계한다.) 이 부분에 대해 제대로 배우고 싶다는 생각이 들었고 그러던 중 이 책을 알게 되었다. 

 

이 책은 데이터 사이언티스트 입문자에게 좋은 책이다. 나같은 마케터이자 데이터 분석도 끄적이는 어중이한테는 좀 어려운 내용이긴 했다. 그래서 글 하나하나의 의미를 완벽히 이해하려 하기보단 어려운 수식은 일단 스킵하고 나에게 필요한 부분을 중점적으로 읽었다. 

 


숫자의 함정에 빠지지 말 것

평균값, 중간값 그리고 이상치 제거 

데이터를 분석할 때 가장 번거롭지만 중요한 단계가 "데이터 전처리"다. 사실 데이터 전처리만 잘하면 분석은 금방이다. 데이터 분석에 60분이 걸린다 하면 40분 정도는 데이터 전처리에 시간이 걸릴 정도다. (10분은 분석 나머지 10분은 해석에 시간이 소요된다.) 이때 나오는 것이  EDA(Exploratory Data Analysis, 탐색적 데이터 분석)다. 

 

EDA란 간단히 말해서 로우 데이터를 이리 쪼개고 저리 쪼개면서 파악하는거다. 결측치, 이상치가 있는지 확인하고 나의 가설에서 어떤 데이터를 넣고 뺄지를 판단하는 것이다. 

 

1차로 각 칼럼별로 평균값과 중간값, 최대값을 비교한다.

예를 들어 A카테고리 구매 고객 대상으로 고객당 구매 수를 평균값과 중간값, 최대값을 확인해 보았을 때 평균값 20, 중앙값 7, 최대값 200이 나오면 이상치가 있다고 판단하는 것이다. 한 사람이 극단적으로 한 상품을 100개 이상 구매하게 되면 중앙값과 평균값 차이가 커지고 최대값 평균값, 중앙값보다 훨씬 큰 수가 나오게 되는 것이다. 이대로 데이터 분석에 들어가면 신뢰도나 정확도가 떨어질 수밖에 없다. 우리는 일반 고객 추이를 보고 싶지 예외 상황인 극단 구매 고객의 추이를 보고 싶은 게 아니기 때문이다. 

 

그럼 어느 정도를 이상치로 보고 제외해야 할까? 

 

이때 정규분포를 보게된다. (수학의 정석 앞부분이 집합이듯 통계책 앞부분 내용은 언제나 정규분포가 차지한다.)  히스토그램을 통해 데이터 분포를 파악하고 보통 평균값 기준 표준편차의 2배 혹은 3배 이상 벗어난 수치를 이상치로 판단하고 제외한다. 

 

난 그동안 분산과 표준편차가 명확하게 무슨 차이인 지 몰랐는데 분산은 표준편차의 제곱근일 뿐. 결국 데이터 퍼짐 정도를 파악하는 것이고 주로 분산보다는 표준편차를 활용한다는 것이다. (대체 분산이란 개념은 왜 생긴걸까..) 

 

 ※그나마 분산과 표준편차를 자세히 설명한 글이 있어 참조한다. >이곳<

 

이 책에서 히스토그램 외 상자수염 그래프, 막대그래프, 스웜 플롯, 바이올린 플롯 등 다양한 그래프 내용이 나와있어 참고하기 좋았다. 각각 그래프를 언제 봐야 할지 헷갈렸는데 어느 정도 정리가 되었다. 1차로 히스토그램을 보고 파악하되 수치가 한쪽으로 기울어진 경우에는 상자 수염, 스웜플롯, 바이올린 플롯을 같이 보며 어느 수준을 이상치로 보고 제외할지 파악한다. 

 

결국 어떤 데이터를 이상치로 판단하고 제외할지를 명확히 하기 위한 과정이다. 

마케터로 데이터를 다루다 보면 보통 평균으로 데이터를 판단하는 경우가 많다. 평균 객단가, 평균 구매 수 등... 근데 데이터 분석을 배우고 그리고 통계쪽 공부를 조금씩 하면서 이게 편향적인 데이터일 수 있음을 인지하고 이 부분을 항상 경계하게 되었다. 

통계적 분석 방법은 데이터 사이언티스트만을 위한 것이 아니다. 이미 마케팅과도 깊게 연관되어 있다.

 

 

내가 세운 가설이 맞을까?

가설 검정법 

가설 검정법은 마케팅에서도 자주 사용하는 방법이다. 그중 가설 유효성을 확인하는 p값은 모르면 안 되는 중요한 개념인데 이 책을 통해 그 의미를 좀 더 이해할 수 있어 좋았다. 귀무가설이고 뭐고.. 그런 거 다 생각하면 헷갈려서 그냥 p값이 0.05보다 작으면 가설이 유효하다로 생각했는데 이 책에서 p값과 그래프를 연결 지어 설명해 의미를 좀 더 파악할 수 있었고 무엇보다 여러 가설 검정법과 그와 관련한 그래프 해석법이 자세히 설명되어 있어 유용했다. 

 


좀 생뚱맞지만 "그로스해킹" 203p에 나온 이야기를 함께 하려 한다. 통계학101x데이터분석이 통계학 개론에 대한 내용이라면 "그로스해킹(데이터와 실험을 통해 성장하는 서비스를 만드는 방법)"은 실무 위주 내용이다. 이 책과 함께 읽어보면 좋을 책이라 생각한다. 

이 책에서 p값이 "절대적인 수치"가 될 수 없음을 지적한다. 그 이유는 아래와 같다. 
  1) 실험 집단 규모가 크면 p값이 작아지는 경향이 있기에 의미가 왜곡될 수 있다.  
  2) p값이 낮더라도 사업적 관점에서 결과 차이가 미미한 경우 유의미하지 않을 수 있다. (예: 집단 간 구매전환율 차이가 0.005% 일 때)  

 

 

마케터가 경계해야 하는 것 

인과관계인가, 상관관계인가 

인과관계와 상관관계를 구분할 것. 이는 데이터 분석을 다루는 책이라면 꼭 나오는 내용이다. 그만큼 중요한 부분이라 생각한다. 책의 예시로 설명하자면 "아침밥과 성적의 관계"다. 아침밥을 먹는 학생들은 성적이 좋을 것이란 가설이다. 결과적으로 아침밥을 먹는 학생들이 성적이 높다고 하자. 이것이 인과관계가 될 수 있을까? 우리는 그렇지 않다는 걸 안다. 아침밥을 먹는 학생들의 가정환경 또한 영향을 미쳤을 수 있기 때문이다. 그러므로 이는 상관관계일 수 있으나 인과관계는 될 수 없다. 

 

나는 처음에 통계를 배우고자 했던 것이 마케팅 성과를 명확히 판단할 수 있겠단 생각 때문이었다. 예를 들어 사이트 개선 전후 혹은 프로모션 전후 매출 분석을 할 때 이게 사이트 개선 영향인 지, 프로모션 영향인 지 의문이 들었기 때문이다. 여러 변수를 넣고 p값을 통해 확인하면 인과관계를 명확히 파악할 수 있지 않을까라 생각했다. 그러나 경쟁사 동향, 퍼포먼스 마케팅, 다른 팀의 쿠폰 이벤트 등 정말 다양한 변수가 있기에 인과관계를 명확히 밝히기 어렵다는 결론을 내렸다. 

 

나와 같이 실무적으로 이런 고민을 하는 마케터가 많을 것이라 생각한다. 다만 그럴수록 인과관계와 상관관계를 구분하는 사고방식이 필요하다고 말하고 싶다. 

 

 

예측의 시대

기계학습 그리고 회귀분석 

최근 내가 꽂혀있는 내용이기도 하다. "예측 마케팅". 관련 책을 읽고 있고 곧 별도 글로 정리할 생각이다. 통계 분석과 기계학습의 차이는 분석한 걸로 "예측"을 할 수 있냐 없냐이다. 기계학습은 분석한 내용을 토대로 "예측 데이터"를 제공한다. 예를 들면 보험 데이터로 로지스틱 회귀분석을 돌리면 이탈 가능성이 높은 고객을 예측할 수 있다. 또한 클러스터링 분석을 통해서는 고객이 "어떤 관심사"를 가지고 있는지 예측할 수 있으며 구매연관성 분석을 통해서는 A상품을 구매한 고객이 "다음에 어떤 상품을 구매할지" 예측할 수 있다. 

 

로지스틱 회귀분석, 클러스터링 분석, 구매연관성 분석 모두 작업하는데 시간이 걸리나 챗GPT의 등장으로 작업 시간이 줄어들게 되었다. (이것 또한 곧 별도 글로 작성할 예정이다.) 작업 시간에 효율이 생기니 마케팅 활용도도 더욱 높아질 거라 생각한다.

다만 실제로 분석을 진행했을 때 "분석가의 해석 역량"이 굉장히 중요하다는 걸 느꼈다. 

 

이 책에서 기계학습에 어떤 종류가 있는지 훑어볼 수 있어 좋았다. 결과적으로 좀 더 효율적으로 좀 더 빠르게 분석하기 위한 여러 방법론이란 것도... 최근에 베이지안 통계 방법에 대해 언급된 글들을 많이 접했는데 이에 대해서도 상세히 나와있었다.

 

이 책을 통해 "완벽한 답은 없다. 숫자에만 매몰되는 것을 경계해야 한다"는 것, 그리고 이 모든 통계 방법론들은 결국 "데이터 신뢰도를 얻기 위한 과정"이라는 것을 알 수 있었다. 앞으로 분석할 때 이 책을 자주 들춰보게 될 것 같다. 통계학 개론을 공부하고자 하는 이들에게 이 책을 추천한다.