[EDA] 탐색적 데이터 분석

PSLeon ㅣ 2023. 5. 13. 00:40

반응형

본 포스팅은 이수안 컴퓨터 연구소의 '탐색적 데이터 분석' 강의를 학습한 후, 참고하여 작성되었음을 알립니다.

탐색적 데이터 분석(Exploratory Data Analysis)

탐색적 데이터 분석이란 미국의 저명한 통계학자인 존 튜키가 창안한 데이터 분석 방법론이다.
기존의 통계학은 정보의 추출에서 가설 검정 등에 치우쳐 자료가 가지고 있는 본연의 의미를 찾는데 어려움이 있었다. 이를 극복하고자 주어진 자료만 가지고도 충분한 자료를 찾을 수 있도록 여러가지 탐색적 자료 분석 방법을 개발하였다.
 

데이터 과학 프로세스

 

탐색적 데이터 분석(EDA)가 왜 필요할까?

  • 데이터의 분포 및 값을 검토함으로써 데이터가 표현하는 현상을 더 잘 이해하고, 데이터에 대한 잠재적인 문제를 발견할 수 있다.
  • 데이터에는 항상 숨겨져있는 정보가 많은데 이를 통해 본격적인 분석에 들어가기 앞서 데이터를 재수집하거나 추가 수집 과정등의 결정을 내릴 수 있다.
  • 데이터를 다각도로 살펴보는 과정을 통해 문제 정의 단계에서 미처 발생하지 못했을 다양한 패턴을 발견하고, 이를 바탕으로 기존의 가설을 수정하거나 새로운 가설을 세울 수 있다.
  • 데이터에 대한 이런 지식은 통계적 추론을 시도하거나 예측 모델을 만들 때 유용하게 사용된다.

 

탐색적 데이터 분석 과정

1. 데이터 수집
2. 시각화 탐색
3. 패턴 도출
4. 인사이트 발굴

먼저 문제 정의 단계에서 세웠던 연구 질문과 가설을 바탕으로 분석 계획을 세운다.
- 이 분석 계획에는 어떤 속성 및 속성 간의 관계를 집중적으로 관찰해야 할지, 이를 위한 최적의 방법은 무엇인지가 포함되어야 한다.
그리고 분석의 목적과 변수가 무엇이 있는지 확인하고, 개별 변수의 이름이나 설명을 가지는지 확인을 해야 한다.
먼저 이를 위해 데이터를 전체적으로 살펴본다.

  • 데이터에 문제가 없는지 확인한다.
  • 하지만 위의 과정에서 데이터가 너무 많다면, head나 tail 부분을 확인한다.
  • 추가적으로 다양한 탐색(이상치 또는 결측치 확인)을 진행한다.

그 후, 데이터의 개별 속성 값을 관찰한다.

  • 각 속성 값이 예측한 범위(range)와 분포(distribution)를 갖는지 확인
  • 만약 그렇지 않다면, 이유가 무엇인지 확인

마지막으로 속성 간의 관계에 초점을 맞추어, 개별 속성 관찰에서 찾아내지 못했던 패턴을 발견한다.
 

1. 연구 질문

연구 과정은 방법론을 선택하는 것에서부터 보고에 이르는 많은 다른 단계를 수반한다. 이 중에서 주로 간과되는 연구과정의 영역은 '연구 질문의 개발'이며, 이 과정은 매우 중요한 과정이다.
그 이유는 올바른 질문을 하지 않는다면, 정답을 얻을 수 없기 때문이다.
목적이 본질적으로 질적인지 양적인지에 따라 어떤 유형의 연구 문제를 활용해야 하는지가 결정된다.
좋은 연구 질문: 편항되지 않은 질문, 답변 가능한 질문, 관련있는 질문, 흥미로운 질문, 적절한 질문, 집중된 질문
 

정량적(양적) 질문 유형(Quantitative Question Types)

정량적 연구는 일반적으로 어떻게, 무엇을, 언제, 어디서를 결정하는 데 사용되고 이를 위한 설문지는 질적 질문보다 많은 면에서 개발하기 쉽다. 왜냐하면 한 번 배워야 할 것을 결정하면 이러한 질문을 객관식, 선택형, 격자형 문제 등에 통합하는 것이 더 직관적이기 때문이다.
그리고 더 큰 데이터 집합을 수정하기 때문에 정량적 방법론에는 일반적으로 보다 구체적인 연구 질문이 포함된다.
- 서술형 질문(descriptive questions): 문제의 개념 또는 주제를 설명한다.

  • 예: 빈도, 하루 중 시간, 사용 목적 등과 같은 제품의 사용을 이해하는 것

- 비교 질문(comparative questions): 두 그룹, 개념 또는 기타 변수 간의 차이를 분석하는 데 사용된다.

  • 예: 두 제품 간의 사용 빈도 비교, 남성 대 여성의 브랜드 선호도 등

- 관계 기반 질문(relationship-based questions): 인과관계에 기반한 질문들은 한 변수가 다른 변수에 어떻게 영향을 미치는지 이해하는 데 효과가 있다.

  • 예: 색상이 특정 제품을 구매하려는 욕구에 어떻게 영향을 미치는지

질적 질문 유형(Qualitative Question Types)

질적 연구는 본질적으로 정량화가 덜되고, 목표에 관한 의미를 발견하고, 이해하고, 탐구하는 데 더 초점을 맞루기 때문에 정량적 질문과 다르게 직접적이지 않고 본질적으로 훨씬 모호하다.
- 탐색적 질문(exploratory questions): 정량적 연구의 서술형 문제와 유사하게, 선입견으로 결과 영향을 주지 않고, 무언가를 이해하는 것으로 보인다.

  • 예: 제품이 어떻게 사용되는지 또는 특정 주제에 대한 인식을 묻는 것은 두 가지 유형의 탐색적 질문이다.

- 예측 질문(predictive questions): 이러한 질문들은 주제나 행동을 둘러싼 의도나 미래의 결과를 이해하려고 한다.

  • 예: 소비자가 왜 특정한 상황에서 행동하는지 또는 어떤 상황이 발생한다면 어떻게 느끼는지 묻는 것이 포함된다.

- 해석적 질문(interpretive questions): 결과에 영향을 주지 않고 특정한 피드백을 수집한다.

  • 예: 새로운 제품 개념을 테스트하고 전달 요청이 어떻게 해석되는지 이해하는 것은 이 유형에 해당한다.

 

2. 이상값 발견 기법

  • 개별 데이터 관찰: 데이터 값을 눈으로 보며 전체적인 추세와 특이사항 관찰
  • 통계값 활용: 요약 통계 지표(summary statistics)
  • 시각화 활용: 확률 밀도 함수, 히스토그램, 점 플롯(dot plot), 워드 클라우드, 시계열 차트, 지도 등
  • 머신러닝 기법 활용: 클러스터링(clustering) 등을 통해 이상치 확인
  • 통계 기반 탐지(statistical-based detection): distribution-based, depth-based
  • 편차 기반 방법(deviation-based method): sequential exception, OLAP data cube
  • 거리 기반 탐지(distacne-based detection): index-based, nested-loop, cell-based, local-outliers, partition-based

5가지 숫자 요약(five number summary)

데이터 집합에 대한 정보를 제공하는 통계량으로 가장 중요한 표본 백분위수 5가지로 구성된 요약 통계 방법 중 하나다.
1) 최댓값, 2) 상위 사분위수 또는 제3사분위수, 3) 중앙값, 4) 하위 사분위수 또는 제1사분위수, 5) 최솟값

 

3. 데이터 시각화

 

4. 속성 간의 관계 분석

범주형 변수
(질적)
명목형 데이터(nominal data)원칙적으로 숫자로 표시할 수 없으나 편의상으로 숫자화 (순위 개념이 없음)
ex: 남:0, 여:1
순서형 데이터(ordinal data)원칙적으로 숫자로 표시할 수 없으나 편의상으로 숫자화 (순위 개념이 없음)
ex: 소득 분위: 10분위 > 9분위 > 8분위
수치형 변수
(양적)
연속형 데이터(continuous data)데이터가 연속량으로서 셀 수 있는 형태
ex: 키가 182.4cm
이산형 데이터(discrete data)데이터가 비연속량으로서 셀 수 있는 형태
ex: 자식 수 5명
데이터 조합요약 통계데이터 시각화
categorical - categorical교차 테이블모자이크 플롯
numeric - categorical카테고리별 통계 값박스 플롯
numeric - numeric상관계수산점도