확률과 통계

1. 또 확통이야?

SunB3an 2024. 9. 25. 10:49

대학교 수업을 들으며 배운 것들을 아카이빙 해두려고 한다.

산업경영공학과에서 뗄 수 없을 만큼 중요해 보이기 때문에.

 

고등학생 때 지겹게 했던 걸 또 한다는 게 아이러니하지만, 

오히려 그때보다 차근차근 개념을 쌓아나갈 수 있어서 더 헷갈리면서도 재밌는 것 같다.

 

* 본 게시글은 인천대학교 유제홍 교수님의 확률과 통계 2 수업을 들으며 작성했습니다. 그러나 해당 글은 제 주관이 80% 이상 내포한 채 각색한 자료이기에, 제 게시글로 교수님의 수업을 평가하는 일은 없길 바랍니다. 

* 최대한 이해하기 쉬운 단어로 작성하려고 노력하고 있습니다. 질문은 댓글 남겨주시기 바랍니다.


확률과 통계가 뭘까?

언제나 이런 원초적인 질문은 대답이 어려운 것 같다. 늘 대학교 첫 수업에서 이야기하지만, 교수님 강의를 들어도 보통 그 개념을 단 번에 이해한 적은 드물다. 어쨌든 확률과 통계란 무엇일까? 확률과 통계를 분리해서 바라봐야한다.

확률

확률을 먼저 보자. 확률은 일어날 가능성을 의미한다. 동전을 던져서 앞면이 나올 확률이 1/2이라는 말은, 그 가능성이 50%라는 말과 같다. 그리 어렵지 않다.

통계

그럼 통계를 살펴보자. 통계는 확률에 비해 해석이 다양하다. '확률과 통계'스럽게 해석하자면 확률변수를 이해하는 것이다.

 

'확률변수'란 무엇이고 이걸 '이해한다'는 건 무슨 소리일까.

'확률변수'는 예를 들어 설명하면 쉬운데, 정의하기에는 내게 조금 벅차다. 그러기에 '확률변수는 함수이다'라는 멘트 하나와 함께 예를 하나 가져와야겠다.

 

전국에 대학생을 모아놓고 총 1000명을 뽑아 그들의 인종 데이터를 추출해보자. 이렇게 데이터를 수집하는 과정을 하나의 '실험'이라고 명명하고 1000명을 뽑는 것은 표본추출, 그 1000명의 데이터는 표본 공간이라고 부른다. 우리가 사건이라고 부르는 것은 표본 공간의 개별 요소를 말한다. 

 

아마 실험에서는 한국인, 한국인, 한국인, 한국인, 중국인, 한국인, 한국인, 일본인, 한국인, 한국인, 한국인, 러시아인 등으로 나타날 것이다.

 

Case 1. 한국인 = 1, 중국인 = 2, 일본인 = 3, 러시아인 = 4로 놓자. 각각의 확률을 구하라.

A. 확률변수는 함수다. 한국인을 넣으면 1이 나오고, 중국인을 넣으면 2가 나오는 함수다.  보통은 함수에 x를 넣으면 나오는 y를 함수값이라고 한다. 그렇게 여기서도 러시아인을 넣어서 나오는 4를 확률변수값이라고 한다. 

 

Case 2. 한국인 = 1, 그렇지 않은 경우 2라고 하자. 각각의 확률을 구하라.

A. 여기서는 다른 확률변수다. 

 

Case 3. 150cm 이하는 0, 160cm까지는 1, 170cm까지는 2 ... 로 표현하자.

A. 이 또한 다른 확률변수다. 

 

이렇게 여러 확률변수를 한번에 나타낸 것을 데이터라고 부른다. 이해한다는 것의 의미는 조금 나중에 생각해보자.

 

확률함수

확률함수란 확률변수의 값을 넣었을 때 그 확률이 나오는 함수를 의미한다. Case 1에서 확률변수값 1이 나올 확률, Case 2에서 확률변수값 1이 나올 확률, Case 3에서 확률변수값 1이 나올 확률은 모두 다르다. 

 

여기서 확률변수가 연속형인지 이산형인지 따질 필요가 있다. 셀 수 있다는 뜻의 이산형이라면 이산형 확률변수로, 그 확률함수는 '확률질량함수'(Probability Mass Function)라고 부르며 키와 같이 셀 수 없는 연속형 확률변수라면 '확률밀도함수'(Probability Density Function)라고 한다. 

 

'확률과 통계' 카테고리의 다른 글

기하분포와 음이항분포  (0) 2024.10.06
초기하분포(Hypergeometric Distribution)  (1) 2024.10.06
베르누이 확률분포, 이항분포  (1) 2024.10.06
[3] 공분산과 상관계수  (0) 2024.10.04
2. 기대값, 분산  (0) 2024.10.02