반응형

통계학을 깊게 학습하기 위해서 확률이론의 기초에 대해 학습하고자 한다.
 

확률과 확률분포 - 시행, 사건, 확률함수

흔히 확률은 어떠한 사건이 발생할 가능성을 수치화하기 위해 사용되는 일종의 척도로 사용한다. 이러한 척도를 정의하기 위해서는 시행(trial), 사건(event), 확률함수(probability function)와 같은 개념을 먼저 정의하는 것부터 해야 한다.
 

시행(trial)

주사위 또는 동전을 던지거나 제비를 뽑는 경우와 같이, 같은 조건에서 몇 번이고 반복할 수 있으며 그 결과가 우연에 의해서 정해지는 실험이나 관찰을 '시행'이라 한다. 예를 들면, '동전을 3번 던진다.' '주사위 1개와 동전 1개를 동시에 던진다.'가 시행이라 할 수 있다.

그리고 어떤 시행에서 일어날 수 있는 모든 결과의 전체 집합을 표본공간(sample space)이라 하고 다시 한번 정리하면 표본공간은 모집단에서 시행을 실시해 얻을 수 있는 결과값들의 집합을 의미하고 'Ω(오메가)' 또는 'S'로 표현한다.
예를 들어, 앞면(H)과 뒷면(T)으로 이루어진 동전 한 개를 던졌을 때 관측할 수 있는 경우는 2가지이며 이 경우 Ω={H, T}로 표시할 수 있다. 이때의 시행은 동전을 던지는 것이다.
 

사건(event)

표본공간의 부분집합을 '사건'이라 한다. 동전을 던지는 행위에서 고려될 수 있는 사건을 모두 나열해보면 ∅(공사건), {H}, {T}, Ω(전사건)가 된다. 이 사건들의 집합을 F={∅, {H}, {T}, Ω}로 표기한다. 참고로 사건을 나타낼 때는 공집합, 전집합이 아니라 공사건, 전사건과 같이 표현해야 한다.
이때 ∅(공사건)은 시행의 결과로 아무것도 관측이 되지 않음을 의미하며 그 확률을 '0'으로 정의한다.
그리고 Ω(전사건)인 경우는 시행의 결과가 무조건에 포함된 경우이므로 그 확률을 1로 정의한다.
 

확률함수(P: probability function)

어떤 시행에서 사건 A가 일어날 가능성을 0과 1 사이의 값으로 매기는 함수를 의미하며, 기호로는 P(A)와 같이 나타낸다.

정의역은 시행을 바탕으로 정의할 수 있는 모든 사건들의 집합을 의미하며 공변역은 0 ~ 1 사이의 실수가 된다.

그리고 1에 가까울수록 사건의 발생 가능성이 더욱 높은 것으로 정의하며 '사건이 발생할 확률이 높다'고 한다.
P:F → [0, 1]

표본 공간이 Ω인 어떤 시행에서 각각의 근원사건이 일어날 가능성이 모두 같은 정도로 기대될 때, 표본공간 Ω의 사건 A가 일어날 확률 P(A)를 아래와 같이 정의하고, 이것을 사건 A가 일어날 수학적 확률이라고 한다.

P(A) = n(A)/n(Ω) = 사건 A가 일어나는 경우의 수 / 전체 경우의 수
 
예를 들어, 혈액형을 검사하는 시행을 한다고 했을 때 표본공간을 구하면 아래와 같다.
Ω = {A, B, O, AB}
그리고 위 시행에서 고려될 수 있는 사건들을 나열하면
∅, {A}, {B}, {O}, {AB}, {A, B}, {A, O}, {A, AB}, {B, O}, {B, AB}, {O, AB}, {A, B, O}, {A, B, AB}, {A, O, AB}, {B, O, AB}, Ω으로 총 2^4=16가지로 정리할 수 있다. 다르게 표현하자면 확률함수 P의 정의역 F는 16개의 사건들로 구성되어 있고 사건 각각에 대해 0~1사이의 실수값을 확률로 정의하면 확률 함수가 정의된 것으로 해석할 수 있다. 이때, 0은 공사건의 확률이며 어떠한 시행에서 사건이 절대로 일어나지 않을 확률이고 1은 전사건의 확률이며 어떠한 시행에서 사건이 무조건 일어나는 확률을 뜻한다.

 

조금 더 쉽게 생각해보자. 주사위를 던졌을 때 3이 나올 확률은? 이라는 문제가 있다고 가정하자.

주사위를 던졌을 때 나오는 표본공간 Ω = {1, 2, 3, 4, 5, 6}이다.

그리고 3이 나오는 사건을 A라고 했을 때 {3}으로 단 한 가지뿐이다. 

그렇다면,

P(A) = n(A)/n(Ω) = 사건 A가 일어나는 경우의 수 / 전체 경우의 수

이므로

1/6이다.


위에서 시행, 사건, 확률함수에 대한 간단한 정의를 알아봤다. 하지만 시행의 결과로서 정의되는 개별 사건에 대해 확률함수를 어떻게 정의할 것인지는 어려운 문제이다. 예를 들어 주 3회 이상 운동하는 20대 남성일 확률을 구한다고 가정했을 때, 20대 남성 전체를 대상으로 주당 운동 빈도를 묻는 것은 대상의 규모가 매우 크기 때문에 현실적으로 불가능하다. 따라서 이런 경우에는 다른 방법인 통계적 확률로 구해야 한다. 현실에서는 모집단(population)에서 표본(sample)을 추출하여 시행하고 그 결과를 바탕으로 구한 확률을 해당 사건이 모집단에서 발생할 확률에 대한 추정값(estimate)라고 한다