IT Log

04. 확률 분포(Probability Distribution) 본문

Statistics/통계(Statistics)

04. 확률 분포(Probability Distribution)

newly0513 2020. 8. 18. 20:34
728x90
반응형

1. 확률변수 / 확률분포

  • 확률변수 : 어떤 시행에서 표본공간 S의 각 원소에 하나의 실수값이 대응되는 변수
  • 확률분포 :  확률 변수가 특정한 값을 가질 확률을 나타내는 함수
  • 확률분포표 : 확률변수와 확률분포를 나타낸 표

예시)

 주사위 두 개를 던졌을 때 두 눈의 합 S에 대한 확률변수는 X = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12} 이고, 확률분포는 P(X=x) = {1/36, 2/36, 3/36, 4/36, 5/36, 6/36, 5/36, 4/36, 3/36, 2/36, 1/36}이며, 확률분포표는 아래와 같습니다.


 

2. 이산확률변수

이산확률변수

 확률변수 X가 갖는 값을 셀 수 있는 경우의 확률변수

 

이산확률분포

 이산확률변수 X의 값 각각에 대한 확률의 대응 관계를 이산확률변수 X에 대한 확률분포라 하며고, 이 대응관계를 아래와 같이 나타낸다.

이 때, P(X=x)를 이산확률변수 X의 '확률질량함수'라고 합니다.

 

확률질량함수의 성질

  1. 확률질량함수의 값은 0과 1사이 값
  2. 확률질량함수의 총합은 1

 

기댓값 E(X) / 분산 V(X) / 표준편차 σ(X)

 

aX+b의 평균 / 분산 / 표준편차

 

이항분포

 한 번의 시행에서 사건 A가 일어날 확률이 p, 일어나지 않을 확률이 1-p일 때, n회의 독립시행에서 사건 A가 일어난 횟수를 확률변수 X로 하는 확률분포를 이항분포라고 하고 B(n, p)로 나타내며, n번의 독립시행 중 사건 A가 x번 일어날 확률은 다음과 같습니다.

 

평균 / 분산 / 표준편차

 

큰 수의 법칙

 어떤 시행에서 사건 A가 일어날 수학적 확률이 p이고 n번의 독립시행에서 사건 A가 r번 일어난다고 할 때 임의의 ϵ>0에 대하여 다음이 성립합니다.

따라서, 시행회수가 많아질수록 통계적 확률은 수학적 확률에 가까워집니다.

 

확률 질량 함수 / 누적 분포 함수


3. 연속확률변수

연속확률변수

확률변수 X가 어떤 구간의 모든 실수값을 가지는 경우의 확률변수

 

연속확률분포

연속확률변수 X가 어떤 구간의 포함될 확률 f(x)를 연속확률수 X의 '확률밀도함수'라고 합니다.

 

확률밀도함수의 성질

  1. 항상 양수
  2. 확률밀도함수 전체의 면적은 1
  3. 확률변수 X가 a와 b 구간에 있을 확률 = 그 구간에서 확률밀도함수 아래의 면적

 

정규분포

 연속확률변수 X의 평균이 μ이고, 표준편차가 σ인 확률밀도함수 f(x)는 아래와 같습니다.

이 때의 분포를 아래와 같이 표기합니다.

 

정규분포의 성질

  1. 평균 μ을 중심으로 좌우대칭이며, x축이 점근선 (∴점근선 : 무한히 뻗어나가는 곡선과 0으로 수렴해가는 선)
  2. x=μ일 때 최대값
  3. 분산이 같을 때, 평균이 변하더라도 분포에 모양 자체는 불변
  4. 평균이 같을 때, 분산이 커지면 평평한 형태, 분산이 작아지면 뾰족한 형태

 

표준정규분포

 평균이 0이고, 표준편차가 1인 정규분포를 표준정규분포라 하며, 아래와 같이 표기합니다.

표준정규분포의 확률변수는 Z로 나타내고, 확률밀도함수는 다음과 같습니다.

 

표준정규분포표

 표준정규분포표(Z분포표)는 중앙을 기준으로 하거나 좌측 끝을 기준으로 합니다. 아래 표는 Z가 0일 때 0.5이므로 좌측 끝을 기준으로 한 표입니다. 예를 들어, P(0≤Z≤1.05)의 값을 구하려면 Z가 1.05인값에서 Z가 0인 값을 빼면 됩니다. 우선 1.05의 값은 아래 분포표에서 행이 1.0이고, 열이 0.05가 교차되는 0.8531이고, 0의 값은 0.5이므로 P(0≤Z≤1.05)의 값은 0.8531-0.5=0.3531입니다. 이런 경우 중앙을 기준으로 한 표에서는 1.05에 해당하는 값을 찾으면 0.3531임을 확인할 수 있습니다.

정규분포의 표준화

 정규분포를 표준화하는 이유는 평균 및 표준편차가 다른 정규분포를 비교할 때나 확률값을 계산할 때 불편하기 때문에 평균이 0이고 표준펴차가 1인 표준정규분포로 변환하여 서로 다른 정규분포를 비교하거나 확률값을 간편하게 구할 수 있습니다. 따라서, 표준화된 확률변수 Z는 아래와 같고, 표준정규분포표와 같이 사용하여 정규분포를 쉽게 비교하고 확률값을 구합니다.

Z값을 구하는 방법은 다음과 같습니다. 예를 들어, 평균이 50이고, 표준편차가 5인 정규분포에서 P(50≤X≤60)를 표준화 시켜서 구하면

가 됩니다.

 

확률 밀도 함수 / 누적 분포 함수


4. 이항분포와 정규분포의 관계

 이항분포는 시행 횟수 n이 커질수록 확률을 구하기가 어려워집니다. 그러므로 확률변수 X가 이항분포 B(n, p)를 따르고, 시행 회수 n이 충분히 크다면 확률변수 X의 분포는 정규분포 N(np, np(1-p))에 근사하는 점을 이용하여 이항분포의 확률을 구합니다.

 

 예를 들어, B(288, 1/3)인 이항분포에서 104회 이상 112회 이하가 될 확률을 구한다면, 

 

728x90
반응형
Comments