본문 바로가기
서비스 기획/이론

시각적 데이터 탐색을 위한 <EDA> 기법

by 김썬이 2024. 11. 17.
728x90

탐색적 데이터 분석(EDA)는 데이터를 처음 접했을 때, 데이터의 특성을 파악하고, 패턴, 이상치, 변수 간 관계를 분석하는 첫 번째 단계입니다. 이 과정을 통해 데이터를 심도 있게 이해하고 이후의 분석 및 모델링을 위한 기초를 다질 수 있습니다. EDA는 단순한 데이터 정리가 아니라 데이터에서 중요한 인사이트를 도출하고 어떤 분석 방법을 사용할지 결정하는 데 중요한 역할을 합니다.

EDA의 목적

EDA는 단순히 데이터를 정리하고 분석하는 것이 아니라, 데이터를 이해하고 그 특성을 탐색하는 과정입니다. 이 과정에서 중요한 목적을 가집니다:

  1. 데이터의 이해: 데이터를 처음 접했을 때, 각 변수들이 무엇을 의미하는지, 어떤 형태의 데이터를 가지고 있는지를 파악합니다.
  2. 이상치 탐지: 데이터에 포함된 이상치나 오류를 찾아내어 이를 수정하거나 제거합니다.
  3. 변수 간 관계 탐색: 변수들 간의 상관관계를 분석하여 인사이트를 도출하고, 모델링에 유용한 변수를 선택합니다.

기초 통계 분석

기초 통계 분석은 데이터를 통해 중심 경향과 분포를 이해하는 데 중요한 역할을 합니다. 예를 들어, 사용자 연령대나 구매 빈도와 같은 데이터를 분석할 때, 기초 통계를 활용하여 데이터의 일반적인 경향을 파악할 수 있습니다. 이를 통해 주요 사용자 특성을 정의하고, 타겟층 설정이나 사용자 세그먼트에 맞는 맞춤형 전략을 수립하는 데 유용한 정보를 도출할 수 있습니다.

출처 : https://www.quora.com/How-is-the-gender-pay-gap-calculated-in-the-US

  • 평균(Mean): 데이터의 중앙값을 나타내며, 일반적인 경향을 파악할 수 있습니다.
  • 중앙값(Median): 데이터의 중간값으로, 극단적인 값의 영향을 최소화할 수 있습니다.
  • 분산(Variance)표준편차(Standard Deviation): 데이터의 변동성을 측정하여, 값들이 평균에 얼마나 퍼져 있는지 확인할 수 있습니다.

데이터 분포 시각화

기초 통계 분석을 통해 얻은 정보를 시각화하면 데이터의 분포를 더 직관적으로 이해할 수 있습니다. 사용자 참여도나 구매 패턴을 시각적으로 분석함으로써, 어떤 서비스 기능이 가장 많이 사용되는지, 사용자의 관심도가 높은 부분을 한눈에 파악할 수 있습니다. 이러한 시각화 기법은 기능 개선이나 서비스 개선 방향을 결정하는 데 중요한 인사이트를 제공합니다.

히스토그램 박스플롯 커널 밀도 추청 플롯

  • 히스토그램(Histogram): 데이터의 빈도 분포를 시각화하여 데이터가 어떻게 분포하는지 한눈에 파악할 수 있습니다.
  • 박스플롯(Box Plot): 데이터의 중앙값, 사분위수, 이상치 등을 시각적으로 표현하여 분포와 변동성을 이해할 수 있습니다.
  • 커널 밀도 추정(KDE) 플롯: 데이터의 확률 밀도 함수를 부드럽게 나타내어 연속적인 데이터의 분포를 시각화합니다.

상관관계 분석

변수 간의 관계를 탐색하는 상관관계 분석은 두 변수 간의 관계를 이해하는 데 중요한 기법입니다. 예를 들어 가격과 구매 빈도 간의 관계를 분석함으로써 가격 책정 전략을 세우거나 프로모션 효과를 예측할 수 있습니다. 또한 사용자 행동 분석을 통해 서비스 개선을 위한 인사이트를 도출하고, 이를 바탕으로 타겟 마케팅이나 사용자 경험 개선을 위한 전략을 수립할 수 있습니다.

상관행렬 산점도 행렬 https://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/autopilot-data-exploration-report.html https://www.jmp.com/ko_kr/statistics-knowledge-portal/exploratory-data-analysis/scatter-plot.html

  • 상관행렬(Correlation Matrix): 변수들 간의 상관계수를 계산하여, 각 변수들이 어떻게 연관되어 있는지를 한눈에 볼 수 있습니다. 상관계수는 -1과 1 사이의 값을 가지며, -1은 완전한 음의 상관, 1은 완전한 양의 상관을 의미합니다.
  • 산점도 행렬(Scatter Plot Matrix): 두 변수 간의 관계를 시각적으로 표현하여 선형 관계나 비선형 관계를 탐색합니다.

데이터 클렌징 및 결측치 분석

결측치를 확인하고 이를 적절히 처리하는 과정은 정확한 분석을 위한 필수적인 작업입니다. 서비스 사용 기록에서 발생할 수 있는 결측치나 오류를 처리하여 정확한 사용자 분석을 진행하여야 합니다. 로그인 정보나 구매 내역에서 누락된 데이터를 보완하면 이를 바탕으로 서비스 성능을 개선하거나 고객 맞춤형 서비스를 제공할 수 있는 중요한 인사이트를 얻을 수 있습니다.

혼자 멀찍이 떨어져 있는 '이상치'

  • 결측치 처리: 결측 데이터를 확인하고 이를 대체하거나 제거하는 방법을 선택합니다.
  • 이상치 탐지: 박스플롯, Z-스코어, IQR 등을 사용하여 이상값을 탐지하고, 이를 처리하여 분석의 정확성을 높입니다.

차원 축소

차원 축소 기법은 데이터의 차원을 축소하여 주요 패턴을 추출하는 데 사용됩니다. 주성분 분석(PCA)은 고차원 데이터를 저차원으로 변환하여 핵심 정보만을 추출하는 효과적인 방법입니다. 사용자 데이터를 다룰 때 수많은 변수 중에서 PCA를 활용해 핵심적인 특성을 도출하면 사용자 유형을 구분하거나 세그먼트 분석을 수행할 때 유용합니다. 예를 들어, 주요 특징을 기반으로 타겟 그룹을 설정하여 더욱 정교한 마케팅 전략을 수립할 수 있습니다.


 

기획자가 모든 데이터 분석을 직접 해야 하는 것은 아닙니다. 그러나 기본적인 데이터 분석 능력을 갖추고 시각화와 해석을 통해 인사이트를 도출하는 능력은 서비스 기획과 비즈니스 전략 수립에 매우 중요합니다. 데이터를 잘 관리하고 활용하는 것이 기획자의 중요한 역할 중 하나이므로 데이터와의 상호작용을 두려워하지 말고 데이터를 적극적으로 활용하시기 바랍니다.

 

728x90
반응형