반응형
1. 데이터 시각화(data visualization)
- 데이터 시각화: 데이터 분석 결과를 사람들이 이해하기 쉽도록 다양한 그래픽 요소를 사용하여 데이터의 특성을 표현하는 방법
- 일반적으로 데이터는 표, 플롯, 그래프로 구성된 차트, 인포그래픽, 다이어그램 또는 지도 형태로 시각화 됨
- 데이터 시각화 활용 사례
- 데이터 간의 상관관계, 시간 경과에 따른 추세, 빈도, 시장 조사, 위험 및 보상, 시장 대응
- 데이터 과학(data science): 데이터를 다루고, 모델링하고, 분석하고, 예측하는 일련의 과정
- 데이터를 수집하고, 전처리하고, 클리닝(cleaning)하는 과정을 거친 후 EDA와 모델링을 통해 분석 및 예측을 진행하고, 분석 결과를 문서화하기 위한 시각화 단계로 마무리 됨
1_1. 데이터 시각화의 필요성 및 데이터 시각화의 이유
- 빅데이터 시대의 비즈니스 환경에서 효율적인 의사 결정을 하기 위해서는 수많은 데이터를 보기 쉽게 정리하고 이를 통한 스토리텔링을 통해 설득할 수 있는 데이터 리터러시가 중요한 요소가 되었음
-
- 데이터 리터러시: 데이터를 요약하고 분석하여 청중이 알기 쉽게 정리한 결과를 적절한 양식으로 작성하여 전달하는 능력
- 데이터는 수많은 수치와 문자들로 이루어져 있어 사람이 이해하기 어려움. 하지만 이를 시각화하면 아래와 같은 이점이 있음
- 데이터 이해가 편리, 빠른 의사 결정, 청중의 주의력과 집중력 향상, 데이터 패턴의 파악, 이상치 및 오륫값 검출, 데이터 스토리텔링, 비즈니스 인사이트
- One look is worth a thousand words. / 백 번 듣는 것보다 한 번 보는 것이 낫다 / 백문이 불여일견
1_2. 데이터 시각화로 표현할 수 있는 것들
- 분포(distribution): 데이터들이 전반적으로 어떻게 혹은 얼마나 흩어져 있는지를 파악(평균, 중앙값, 범위, 분산, 표준편차)
- 비교(comparison): 특정 변수의 변화에 따른 값들의 차이를 확인하기 위해 사용(막대그래프, 선 그래프, 히트맵 등)
- 추세(trend): 시간의 흐름에 따른 값의 변화를 표현하는 방법(선 그래프를 많이 사용하며 막대그래프도 가능)
- 구성(composition): 전체에 대한 비율(백분율)을 시각적으로 표현하는 데 사용(원그래프 또는 막대그래프)
- 상관관계(correlation): 독립변수(x)와 종속변수(y)로 정의되는 데이터를 시각화하여 이 두 변수간의 전체적인 분포가 어떤 관계를 맺고 있는지를 보여줌(산점도)
- 지리(geographic): 데이터를 지도나 약도 위에 표현함으로써 지역 간의 데이터의 차이를 보여주는 시각화 방법
1_3. 차트, 플롯, 그래프
- 차트, 플롯, 그래프에 대한 명확한 구분은 없으며 차트, 플롯, 그래프라는 용어를 혼용하여 사용
- 차트(chart): 특정 문제에 대해 여러 청중을 대상으로 브리핑하기 위해 문자, 숫자, 그래프, 플롯 등을 활용하여 만든 자료
- 파이 차트, 도넛 차트 등
- 플롯(plot): 주로 데이터의 위치를 직접 표현하는 시각화 방법
- 산점도, 박스 플롯, 바이올린 플롯 등
- 그래프(graph): 점과 점들을 잇는 선으로 구성된 구조
- 선 그래프, 막대그래프 등
- 다이어그램(diagram): 기술적 유형의 집합과 데이터의 성질을 표현하기 위해 선, 화살표 등의 시각적 고리들로 연결된 형태의 유형
- 순서도, 벤다이어그램, 차트, 표 등
'AI & BigData' 카테고리의 다른 글
[파이토치] 메타코드M '딥러닝 입문 + Pytorch 실습 부트캠프' 강의 후기(1/8) (1) | 2024.04.21 |
---|---|
[AI] 인공지능 대학원 면담 전공 및 수학(선형대수, 통계) 질문 및 답변 준비 (0) | 2024.04.11 |
[BigData] 결측치(missing value) 정의 및 제거 방법 (0) | 2023.10.13 |
[AI] 주성분 분석(PCA) (1) | 2023.10.06 |
[AI] 앙상블 학습(Ensemble Learning) (2) | 2023.10.02 |