기술통계: 일변량(하나의 변수) 자료의 분석
앞서 통계학이 무엇인지를 다루며(더보기: https://psleon.tistory.com/25), 기술통계학과 추측통계학으로 나눌 수 있음을 확인하였음
기술통계학은 관측된 자료를 해석하기 쉽게 기술하는 방법의 연구를 목적으로 하고, 추측통계학은 표본의 자료를 기초로 하여 모집단에 대한 추론을 목적으로 함
즉, 기술통계는 자료를 정리, 요약하고 비교하여 집단의 특징을 기술하는 것
그리고 자료의 요약(더보기: https://psleon.tistory.com/26)에서는 주어진 자료를 도표와 그림으로 정리하는 방법에 대해 학습함
이러한 기법들은 관측된 자료의 분포모양, 연관성, 패턴 또는 경향들을 시각적으로 살펴보는데 도움을 주는데 도표와 그림을 작성할 때에는 분석자의 주관적인 판단에 따라 여러 형태로 나타낼 수 있어 분석에 어려움이 따름
따라서, 이번에는 자료의 분포모양이나 특징들을 보다 객관적으로 요약하고 설명하며 비교할 수 있도록하는 여러 가지 기술통계에 대해 배우고자 함. 이는 분석자가 표와 그래프를 통해 얻은 자료에 대한 시각적인 정보를 심층적으로 해석하게 하는 역할을 함
자료의 특징을 나타내는 기술통계에는 대푯값, 산포도, 분위수 등이 있음
대푯값: '중심위치를 나타내는 통계값'
대푯값(representative value)
자료 분포의 중심 또는 중심적 경향(central tendency)을 나타냄
일반적으로 자료의 분포를 정확하게 파악하는 것은 매우 복잡하고 어렵기 때문에 대푯값을 사용하여 그 분포의 특징을 기술함
대푯값의 종류로는 평균(mean), 중앙값(median), 최빈값(mode), 중앙범위(midrange) 등이 있음
대푯값의 종류 | |
평균(mean) | 데이터를 모두 더한 후 데이터의 갯수로 나눈 값(자료의 산술 평균) |
중앙값(median) | 전체 데이터를 크기 순서대로 나열했을 때 정중앙에 위치한 수 |
최빈값(mode) | 전체 데이터 중에서 가장 많이 반복해 나타나는 수(최빈값은 2개 이상일 수도 있음) |
중앙범위(midrange) | 전체 데이터의 최댓값과 최솟값의 산술평균 = (Max + Min)/2 |
평균(mean)
평균은 모집단 자료와 표본자료에서 공통적으로 사용되는 대푯값, 다만 각 자료에서 평균을 계산하는 방법은 동일하지만 서로 다른 기호를 사용한다는 점을 유의해야 함
모평균(모집단 평균): 크기가 N인 유한 모집단의 자료가 {x1, x2, ..., xN}일 때, 모평균은 μ("뮤")로 표기
표본평균: 크기가 n인 표본자료를 {x1, x2, ..., xn}이라고 할 때, 표본평균은 x̄("x 바")로 표기
- 무한개의 측정값들로 이루어진 무한 모집단의 평균 μ는 계산이 불가능하며, 이들 중에서 몇 개를 표본으로 추출한 표본자료의 표본평균으로 그 값을 추정함
example 미 농무성에서 조사한 자료에 의하면 1974년에서 1983년까지 미국의 연간 농산물 수출액은 219, 219, 230, 236, 294, 347, 412, 433, 391, 337억 불이었다. 이 기간 동안 미국의 연간 농산물 수출액의 평균을 구하시오. 파이썬 실습 ![]() |
평균은 모든 자료를 다 사용하므로 자료에 있는 극단적인 측정값인 '이상값(outlier)'에 크게 영향을 받는 경향이 있음
이상값이 포함된 자료에서는 평균 대신 중앙값(median)을 대푯값으로 사용하는 것이 바람직함
중앙값(median)
중앙값은 구간척도(interval scale)나 비율척도(ratio scale)로 관측된 자료에 사용되는 대푯값의 일종으로, 자료의 측정값들을 크기 순서로 배열하였을 때 그 배열의 중간에 위치한 값
중앙값 계산 |
1) 자료를 크기 순서대로 정렬 |
2) 자료의 크기가 홀수일 때: ((n+1)/2)번째 되는 측정값 자료의 크기가 짝수일 때: (n/2)번째와 ((2/n) + 1)번째의 순위를 가진 측정값들의 산술평균 |
일반적으로 모집단의 중앙값은 M, 그리고 표본의 중앙값은 x(~)("x 틸드")로 표기
example 7번의 농구 경기에서 A선수의 득점수가 [6 10 3 21 0 35 14]일 경우 중앙값을 구하면? 1) 자료를 크기 순서대로 정렬 [0 3 6 10 14 21 35] 2) 데이터의 크기가 7이므로 홀수, 따라서 (8/2) = 4번째 되는 측정값인 '10'이 이 자료의 중앙값 만약, A선수의 득점수가 [6 10 3 21 0 35 14 42]일 경우 중앙값은? 1) 자료를 크기 순서대로 정렬 [0 3 6 10 14 21 35 42] 2) 데이터의 크기가 8이므로 짝수, 이 경우 (8/2) = 4번째와 ((8/2)+1) = 5번째의 순위를 가진 측정값들의 산술평균((10+14)/2)인 12가 중앙값 ![]() |
example 어느 마라톤 선수가 국내 6개 마라톤 대회에서 거둔 성적은 3등, 5등, 4등, 6등, 2등, 85등일 때 이 자료의 대푯값을 구하면? 자료의 평균 μ = 17.5등이지만 이 선수의 경우 85등이 다른 자료들과 비교하였을 때 이상값이므로 평균 17.5등이 이 선수의 성적을 대표한다고 할 수 없음 따라서 이 경우 중앙값을 대푯값으로 사용하는 것이 바람직함 1) 데이터 정렬 [2, 3, 4, 5, 6, 85], 데이터의 크기: 6(짝수) 2) (4 + 5) / 2 = 4.5 |
최빈값(mode)
최빈값은 자료의 측정값들 중에서 가장 높은 빈도를 갖는 값으로 질적 자료에 사용되는 대푯값
ex: 관측된 자료가 [1, 2, 3, 3, 2, 3, 50]일 때 최빈값은 3
최빈값 사용의 장점 · 단점
최빈값 사용의 장점 | 최빈값 사용의 단점 |
1) 최빈값은 이상값들의 영향을 받지 않음 2) 최빈값은 질적 자료의 분석에서 유일하게 사용됨 3) 최빈값은 자료가 숫자로 관측되었으나 그 숫자가 질적인 의미를 가졌을 경우 유일하게 사용되는 대푯값 |
1) 자료의 측정값들이 모두 동일한 빈도수를 가진 경우, 그 자료에는 최빈값이 존재하지 않음 2) 자료에 따라 여러 개의 최빈값이 존재할 수 있음 |
장점 1의 예시 자료 A: 1, 2, 2, 2, 3, 78 자료 B: 1, 2, 2, 2, 3, 8 두 자료 A와 B의 최빈값은 2 |
장점 2의 예시 대학생 12명을 대상으로 혈액형을 조사한 결과 A, A, B, A, AB, O, O, B, O, A, B, AB를 얻었음 이 명목자료의 최빈값은 A형 |
장점 3의 예시 자료 02, 051, 042, 02, 051, 042, 042는 어느 시점에서 통화된 시외통화의 지역번호를 조사한 자료 이 자료는 051(부산)과 같이 숫자가 질적인 의미를 지님 따라서 대표값은 최빈값: 042(대전 |
단점 1의 예시 측정값이 흰색, 검정색, 파랑색, 빨강색일 때 이 자료의 최빈값은 존재하지 않음 |
단점 2의 예시 측정값들이 2, 2, 3, 3, 4, 5, 6일 때 2와 3이 최빈값이며, 이러한 자료를 이봉자료(bimodal data)라고 함 |
중앙범위(midrange)
자료의 측정값들 중에서 얻은 최댓값과 최솟값의 산술평균을 뜻함
example 다음 자료는 남학생 8명의 키를 측정한 것인데 이 경우의 중앙범위를 구하면? 173, 180, 183, 168, 173, 172, 175, 181 자료 중에서 최댓값 U=183, 최솟값 L=168 그러므로, 중앙범위=(U+L)/2=175.5 |
'Mathematics > Statistics' 카테고리의 다른 글
[Statistics] 기술통계: 일변량 자료의 분석 - 산포도를 나타내는 통계값 (0) | 2023.05.26 |
---|---|
[Statistics] 기술통계: 일변량 자료의 분석 - 자료의 위치점 (0) | 2023.05.23 |
[Probability] 조합(Combinations) (0) | 2023.05.18 |
[Statistics] 자료의 요약 (0) | 2023.04.30 |
[Statistics] What is Mathematical Statistics? (0) | 2023.04.30 |