베르누이 확률분포, 이항분포
베르누이 확률분포란, 베르누이 시행에 대한 확률 분포를 말한다.
베르누이 시행을 살펴보자.
베르누이 시행, 베르누이 과정은 동전 던지기를 떠올리면 된다.
1) 확률변수는 0 또는 1이라는 두 가지 값만 나타날 수 있다.
2) 각 시행은 동일한 확률을 가진다.
3) 각 시행은 독립이다.
동전은 앞면 혹은 뒷면의 결과만 나타날 수 있다. 동전이 옆면으로 일어서는 경우도 있지 않냐고 할 수 있는데,
이를 수학적 확률과 경험적 확률이라고 표현한다.
동전을 던지다보면 앞면이 67번, 뒷면이 43번 나올 수 있다. 그럼 앞면과 뒷면이 나올 확률은 1/2가 아닌 걸까?
실제로 대부분의 경우 아니다. 사람이 던지는 방식에 의해서, 혹은 조형된 과정에서 약간의 변화로 인해 완벽히 50:50으로 만들어지기는 어렵다. 그리고 던지다보면 충분히 옆면에 서는 경우가 있을 수도 있다.
그런데도 문제를 풀 때는 동전의 앞면이 나올 확률은 1/2로 가정한다. 이런 것들이 수학적 확률이다. 직접 던져보지 않고 몇 가지 가정을 정한 후, 수학만으로 계산한다. 우리가 동전을 던지지 않아도 알 수 있는 이유이다.
어쨌든 이 동전의 앞 뒷면을 0 또는 1로 표현하기로 하자. 확률변수라는 함수로 변환해줄 수 있다. 확률변수의 값은 0 또는 1만 나타날 수 있고, 매번 동전을 던질 때마다 확률은 동일하며, 독립이라고 가정한다.
독립이라는 것을 잠시 설명하고 넘어가자. 독립은 두 확률변수가, 혹은 두 시행이 서로 영향을 주지 않는다는 것을 의미한다. 동전을 두 번 던진다고 할 때, 처음 던진 것의 결과가 앞면이든 뒷면이든 두 번째 던진 동전에 대해서 알 수는 없다. 독립의 반대말은 종속이다.
독립인지 아닌지 어떻게 알 수 있을까?
조건부 확률을 통해서 알 수 있다. 조건부 확률은 말 그대로 특정 조건을 추가했을 때 확률이 어떻게 되는가 하는 것이다.
A가 일어났다는 조건 하에서, B가 발생할 확률을 묻는 것이다.
(A)동전을 던져 앞면이 나왔을 때,
(A교집합B)주사위를 던져 홀수가 나올 확률은 무엇인가?
위의 공식에 필요한 값을 찾아보자.
P(A) = 1/2
P(B) = 1/2
P(A교집합B) = 1/4 이다.
이를 대입해보면 P(A/B) = 1/2이고, 이는 곧 P(A)의 확률과 같다. 그냥 A의 확률과, B가 일어났을 때 A의 확률이 같다. 곧 a와 B는 무관한 독립 관계이다. 이의 반대말은 종속이라고 표현한다.
그럼 다시, 베르누이 시행을 살펴보자.
베르누이 시행은 총 3가지의 조건을 따르는 시행을 말한다.
(여기서 시행이란, 주사위를 한 번 던지는 것과 같은 행동을 말한다.)
베르누이 확률분포는 그런 베르누이 시행을 1번 했을 때 나타나는 확률 분포이다.
위와 같이 표기한다. 이때 f()는 확률함수를 말하고, 세미콜론(;) 옆에 있는 p는 확률을 의미한다. x는 확률변수 값이다.
세미콜론을 붙히는 이유는 그 뒤에 오는 변수들이 '파라미터'라는 것을 알려주기 위해서이다.
파라미터는 이 함수의 성질을 결정하는 변수를 말한다.
베르누이 시행에서 중요한 건 무엇일까? 몇번 던지는가 하는 것은 어차피 1번으로 고정되어 있다.
어떤 값을 찾느냐? 이것도 0 또는 1로 고정되어 있고, 그것은 확률변수에 해당된다. 파라미터가 될 수 없다.
남은 것은 확률 뿐이다. 확률이 베르누이 확률분포의 형태를 결정한다고 볼 수 있다.
파라미터가 어떤 확률분포를 따르는지 결정하는 것은 아니다.
어떤 확률분포를 따르는지 알게 되었을 때, 그 확률분포의 구체적인 것을 결정하는 것이 파라미터이다.
기댓값과 분산은 x에 앞서 설명한 공식에 대입하면 알 수 있다.
여기서 한 가지 질문이 생길 수 있다.
시행을 한 번만 하는 건 너무 시시하지 않나?
그래서 시행을 여러 번으로 늘린 것을 이항분포라고 한다.
앞선 3가지 베르누이 시행을 따르고, 시행이 1번은 베르누이 확률분포, 시행이 n번은 이항분포를 따른다.