본문 바로가기

[공부] 데이터 분석 활용

[SQL 강의] 러닝스푼즈 | SQL과 구글 시트로 배우는 데이터 리터러시 첫 걸음 (4) 데이터 분석 방법론

시계열분석

 

* 과거의 상황을 기반으로 올해도 똑같을 것이라고 가정하고 예측하는 것이기 때문에, 올해만의 돌발 이슈 등까지 정확히 예측할 수는 없음

 

* 불규칙 변동성 : 이 변수를 데이터 분석에 녹여낼 것인가, 빼낼 것인가? 그 기준은 무엇인가 등 고민할 거리가 많아짐

* 체계적 변동성 : 주간 매출은 월요일 아침에 제일 많이 나온다. 등 반복되는 결과값의 경향을 통해 예측할 수 있는 값

 

코호트 분석

 

* 코호트 분석 = 세그먼트 분석 + 특정 기간 기준 추가

 

코호트 분석 활용 예시

- 7월 전까지만 해도 M-4(4개월차)에 감소하는 경향이 두드러졌는데, 그 시기에 우리의 어떤 정책 변화가 있었길래 트렌드가 달라졌을까? 

  EX) 배민의 신규 업체수가 언제 이탈하는지, 언제까지 잔존하는지 보고 싶다. 어떤 요소가 잔존율을 높여줬을까?

 

코호트 분석의 어려움

- 충분한 시간, 비용이 소요됨 (장기간 다수 집단의 자료 필요)

- 월 기준으로 작성하는 경우가 많음

 

데이터 시각화

 

의도된 시각화 (인지적 오류)

- 팀의 목표를 더 잘 나타내기 위해, 등 다양한 목적을 달성하기 위해 특정 데이터가 더 잘 보이도록 집중시키는 것은 분명 필요함 (색상을 다르게 한다던지 등)

- 그러나 오른쪽 시각화 예시의 경우, 1) 도넛 크기가 숫자와 완전 다름 2) 바의 높이가 상대적으로 제대로 반영되지 않았음

  > 왼쪽과 같이 변경 필요

 

 

 

* 더 어려운 그래프를 쓸 필요 없음. 남들도 이해하기 어렵게 되기 때문. 현업에서도 실제로 위의 3가지 형태의 그래프 위주로 간단한 시각화를 통해 이해를 돕는 식으로 가장 많이 활용함.

 

활용 예시 - 연습문제

 

1. 일자별 / 부서별 매출액

 

- 피봇 테이블 만들 때부터 행과 열에 적절한 값을 넣을 것

- 차트 안에 너무 많은 내용을 한번에 넣기보다 테이블과 함께 볼 수 있게 적절히 배치

 

2. 지난주 대비 주문수 증가율

 

- 주문수 / 증가율과 같이 아예 기준이 다른 데이터 2개 이상 함께 표현하고 싶을 때는, '오른쪽 세로축' 기능을 활용한 뒤 각 축의 최솟값 / 최댓값을 조정하여 두 그래프가 다른 영역에서 펼쳐지도록 조절

- 개인적으로 증감율의 경우 '영역' 활용하는 게 가장 명확하지 않을까 생각했다.

 

3. 월별 주문금액 전년 동월 비교

- 강조하고 싶은 값에 색상 적절히 활용

- 가능한 차트 하나에 한가지 계열의 색상만 활용하는 것이 깔끔

 

데이터 시각화의 오류

1. 그래프 유형 선택의 오류

- 라인 그래프 -> 도넛 그래프, 원 그래프

 

- 매출액과 매출 비중은 완전히 다른 의미의 값이기 때문에, 같은 막대그래프로 표현하면 혼란을 줄 수 있음

- 라인그래프, 영역 그래프 등으로 변경 (콤보 차트)

 

2. 한번에 너무 많은 내용을 포함

- 지금 부각하고자 하는 것은 '온라인 전용 상품' -> 그외 상품을 아예 제외하는 것도 고려

- 항상 차트를 통해 표현하고자 하는 것이 무엇인지를 가장 먼저 규정 / 목적 설정이 필요하겠다.