[복습]
확률: 미래의 일을 예측하는 것
통계: 과거의 실험 데이터를 분석하는 것. = 확률변수를 이해하는 것
확률변수: 실험에서 나올 수 있는 값을 필요에 의해 바꾸어 주는 함수.
[예제 1.0] 주사위 눈이 3보다 작으면 0, 크면 1일때, 확률변수 X에서 0과 1의 값이 나타날 수 있다.
확률함수: 확률변수 X의 값은 확률함수에 의해 하나의 확률을 가진다. [예제 1.0]에서 0과 1의 확률은 각각 1/2이다. 이때 확률분포는 앞으로 배울 베르누이 확률분포를 따르며, 확률변수의 확률함수
와 같이 나온다. 이 부분은 나중에 다시 다룰 부분이고, 다시 앞으로 와서.
이제 평균과 분산을 구하는 법을 배우자.
평균이라고도 하지만 원래 이름은 기대값이다.
가운데는 셀 수 있는 이산형 확률변수일 때, 우측은 셀 수 없는 연속형 확률변수일 때 기대값을 구하는 방법이다.
연속형은 이산형과 다르게 하나의 값을 선택할 수 없기에 범위를 지정하고 적분하는 것이다.
연속형의 예시는 키인데, 그렇다면 180cm라는 하나의 값이 존재할 수 있지 않느냐고 할 수 있다. 180과 179.999... 은 다른가? 이처럼 구분하는 것은 불가능하다고 인정해야한다. 그렇기에 키를 기준으로 구분하려면 180보다 크고 185보다 작다와 같이 범위로 나누어 구분할 필요가 있다.
그런데 왜 이게 평균일까? 우리가 배운 평균은 모든 x의 값을 다 더하고, x의 개수로 나누는 게 평균 아닌가?
이는 위와 같다. 또 시그마 공식과 생긴 게 비슷하다. x값이 1부터 3으로 달라지지만 f_x는 1/3로 고정인 형태. 참고로 이때 x는 확률변수, f(x)는 확률함수이다. 근데 확률이 달라지는 상황에서도 평균이라고 볼 수 있는지 궁금할 수 있다. 시그마 공식에서는 f(x)가 달라질 수 있는데, 우리가 아는 공식에서는 1/3이 달라지면 안될 것만 같다. 그럼 이렇게 생각해보면 어떨까? 주사위를 4번 던져서 나온 값의 평균을 구하자. 1, 2, 3, 3이 나왔다. 3 옆에 오는 수는 2/4가 된다. 이처럼 확률변수 옆에 확률을 곱하는 것은 자연스러운 평균 구하기로 볼 수 있다.
분산과 편차를 알아보자. 이 모두 '산포'라는 어려운 개념을 위해 만들어졌다. 산포란 퍼져있는 정도를 말한다. A학과와 B학과가 있다. 두 학과 모두 학생수는 비슷하고, 평균 전공 성적도 4.0으로 같다 (절대평가라고 가정하자). 두 학과가 비슷하다고 말할 수 있을까? 이렇다면 어떨까? A학과는 대부분의 학생이 4.0을 받고 있다. B학과는 4.5점부터 2점까지 다양하다. 그렇다면 A학과는 학우들이 서로 잘 지내는 경향이 있다고 볼 수 있지 않을까? B학과는 공부를 하는 사람은 열심히 하고, 포기한 학생은 누구도 도와주지 않고 있다고 생각할 수도 있을 것이다. 만약 이 글을 보고 여러가지 반박거리가 생각난다면 그게 정답이다. 분산은 정확한 원인이 아닌, 하나의 경향을 보여주는 것이다. 따라서 이것 하나만으로 판단하는 것은 빈약한 근거일 수 있다. 그럼에도 분산은 중요한 지표가 된다.
분산은 차이 제곱의 합이다. 편차는 분산의 제곱근이다.
차이의 제곱이라는 것은, 각각의 요소와 평균과의 차이를 이야기한다. 그것들을 그냥 더하면 어떻게 될까? [예제 1.0]으로 생각해보자. (1-2) + (2-2) + (3-2) = 0이다. 당연한 결과다. 이를 해결하고 의미있는 자료를 얻기 위해서는 제곱을 해주면 된다. 모든 차이를 다 제곱하면 그게 분산이 된다. 왜 분산에 루트를 씌운 편차가 존재할까? 예를 들어 키에 대해서 분산을 구하면, (cm)^2이라는 단위가 쓰일 것이다. 이건 의미가 없다. 저런 기호를 사용하지 않으니까. 그래서 제곱근을 씌워주는 것이다. 단위를 표준화하기 위해서.
다음에는 공분산과 상관계수를 살펴보자.
'확률과 통계' 카테고리의 다른 글
기하분포와 음이항분포 (0) | 2024.10.06 |
---|---|
초기하분포(Hypergeometric Distribution) (1) | 2024.10.06 |
베르누이 확률분포, 이항분포 (1) | 2024.10.06 |
[3] 공분산과 상관계수 (0) | 2024.10.04 |
1. 또 확통이야? (2) | 2024.09.25 |