시계열분석
* 과거의 상황을 기반으로 올해도 똑같을 것이라고 가정하고 예측하는 것이기 때문에, 올해만의 돌발 이슈 등까지 정확히 예측할 수는 없음
* 불규칙 변동성 : 이 변수를 데이터 분석에 녹여낼 것인가, 빼낼 것인가? 그 기준은 무엇인가 등 고민할 거리가 많아짐
* 체계적 변동성 : 주간 매출은 월요일 아침에 제일 많이 나온다. 등 반복되는 결과값의 경향을 통해 예측할 수 있는 값
코호트 분석
* 코호트 분석 = 세그먼트 분석 + 특정 기간 기준 추가
코호트 분석 활용 예시
- 7월 전까지만 해도 M-4(4개월차)에 감소하는 경향이 두드러졌는데, 그 시기에 우리의 어떤 정책 변화가 있었길래 트렌드가 달라졌을까?
EX) 배민의 신규 업체수가 언제 이탈하는지, 언제까지 잔존하는지 보고 싶다. 어떤 요소가 잔존율을 높여줬을까?
코호트 분석의 어려움
- 충분한 시간, 비용이 소요됨 (장기간 다수 집단의 자료 필요)
- 월 기준으로 작성하는 경우가 많음
데이터 시각화
의도된 시각화 (인지적 오류)
- 팀의 목표를 더 잘 나타내기 위해, 등 다양한 목적을 달성하기 위해 특정 데이터가 더 잘 보이도록 집중시키는 것은 분명 필요함 (색상을 다르게 한다던지 등)
- 그러나 오른쪽 시각화 예시의 경우, 1) 도넛 크기가 숫자와 완전 다름 2) 바의 높이가 상대적으로 제대로 반영되지 않았음
> 왼쪽과 같이 변경 필요
* 더 어려운 그래프를 쓸 필요 없음. 남들도 이해하기 어렵게 되기 때문. 현업에서도 실제로 위의 3가지 형태의 그래프 위주로 간단한 시각화를 통해 이해를 돕는 식으로 가장 많이 활용함.
활용 예시 - 연습문제
1. 일자별 / 부서별 매출액
- 피봇 테이블 만들 때부터 행과 열에 적절한 값을 넣을 것
- 차트 안에 너무 많은 내용을 한번에 넣기보다 테이블과 함께 볼 수 있게 적절히 배치
2. 지난주 대비 주문수 증가율
- 주문수 / 증가율과 같이 아예 기준이 다른 데이터 2개 이상 함께 표현하고 싶을 때는, '오른쪽 세로축' 기능을 활용한 뒤 각 축의 최솟값 / 최댓값을 조정하여 두 그래프가 다른 영역에서 펼쳐지도록 조절
- 개인적으로 증감율의 경우 '영역' 활용하는 게 가장 명확하지 않을까 생각했다.
3. 월별 주문금액 전년 동월 비교
- 강조하고 싶은 값에 색상 적절히 활용
- 가능한 차트 하나에 한가지 계열의 색상만 활용하는 것이 깔끔
데이터 시각화의 오류
1. 그래프 유형 선택의 오류
- 라인 그래프 -> 도넛 그래프, 원 그래프
- 매출액과 매출 비중은 완전히 다른 의미의 값이기 때문에, 같은 막대그래프로 표현하면 혼란을 줄 수 있음
- 라인그래프, 영역 그래프 등으로 변경 (콤보 차트)
2. 한번에 너무 많은 내용을 포함
- 지금 부각하고자 하는 것은 '온라인 전용 상품' -> 그외 상품을 아예 제외하는 것도 고려
- 항상 차트를 통해 표현하고자 하는 것이 무엇인지를 가장 먼저 규정 / 목적 설정이 필요하겠다.
'[공부] 데이터 분석 활용' 카테고리의 다른 글
[SQL 강의] 러닝스푼즈 | SQL과 구글 시트로 배우는 데이터 리터러시 첫 걸음 (5) 보고서 작성 (1) | 2024.02.20 |
---|---|
[SQL 강의] 러닝스푼즈 | SQL과 구글 시트로 배우는 데이터 리터러시 첫 걸음 (3) 스프레드시트 활용 (1) | 2024.02.04 |
[SQL 강의] 러닝스푼즈 | SQL과 구글 시트로 배우는 데이터 리터러시 첫 걸음 (2) SQL 활용 (0) | 2024.02.01 |
[SQL 강의] 러닝스푼즈 | SQL과 구글 시트로 배우는 데이터 리터러시 첫 걸음 (1) (1) | 2024.01.30 |
[SQL 실전 무료강의] 프로젝트 1. 주간 활성 유저 감소 (0) | 2024.01.19 |