어떤 사건(event)이 일어날 확률(probability)는 사건이 일어날 가능성을 나타내며, 0과 1사이의 숫자이다.
확률 변수(random variable)는 확률 공간에 있는 각 결과에 대해 실숫값을 할당하는 함수이다. 예를 들어, 동전 던지기에서 동전의 앞면(head)을 1로, 뒷면(tail)을 0으로 할당할 수 있다.
확률 변수의 기댓값(expectation)은 확률 변수 분포의 중심(center)을 잡기 위한 값이다. 주어진 분포에서 뽑은 샘플의 평균으로 해석할 수 있다. 조금 더 정확히 말하면, 가능한 확률 변수의 값을 확률로 가중합을 구한 것이다.
$$E[X] = \sum_{x\in\chi} xP(x)$$
공정한 주사위의 기댓값은 3.5에 수렴한다.
확률 변수의 분산(variance)은 확률 변수 분포의 퍼짐(spread) 정도를 정량화한다(기댓값은 중심을 측정한다). 분산은 확률 변수와 기댓값의 차이를 제곱한 다음 평균을 낸 값이다.
$$Var(X) = E[(X - E[X])^2]$$
순열(permutation)과 조합(combination)
조건부 확률(conditional probability), 예를 들어 오늘 날씨가 흐릴 때, 내일 비가 올 확률. 수학적으로 조건부 확률은 샘플 공간(sample space)을 특정 사건(event)로 한정하는 것이다.
확률 분포(probability distribution)는 이산 확률 분포(discrete)와 연속(continuous) 확률 분포 두 가지로 나뉜다.
먼저 이산 확률 분포에 대해 알아본다. 이산 확률 변수는 유한하고 셀 수 있는 수의 확률 값을 가진다. 베르누이(Bernoulli), 이항(binomial), 기하(geometric), 푸아송(Poisson), 음의 이항(negative binomial) 분포가 있다.
이산 확률 변수 $X$에 대해 PMF(probability mass function) $f(x)$와 CDF(cumulative distribution function) $F(X)$은 아래를 만족한다.
$$P(X = x) = f(x)$$
$$P(X < x) = F(x)$$
베르누이 확률 변수는 확률이 $p$인 값 1과, 확률이 $1 - p$인 값 0을 가진다. 이 확률 변수는 이진 실험(binary experiments)을 나타낼 때 쓰인다. 예를 들면, 동전 던지기. 확률 질량 함수(PMF)는 아래와 같다.
$$f(x;p) = \begin{cases} p & \text{if } x = 1 \\ 1-p & \text{if } x = 0 \end{cases}$$
베르누이 확률 변수의 평균은 $p$, 분산은 $p(1 - p)$.
이항 확률 변수는 $n$개의 독립적인 베르누이 확률 변수의 합이며, 이때 매개 변수 $p$를 가진다. 주어진 횟수의 동일한 이진 실험에서 성공 횟수를 모델링할 때 사용한다. 즉, 5번의 동전 던지기에서 앞면이 나오는 횟수. 이때 $p = 0.5$, $n = 5$. PMF는 아래와 같다. 이때 평균은 $np$, 분산은 $np(1 - p)$.
$$f(x; n,p) = \binom{n}{x}p^{x}(1-p)^{n-x}$$
기하 확률 변수는 한 번의 성공이 나타나기 위해 필요한 시도(trial) 횟수를 센다. 여기서 각각의 시도는 독립이며, 성공 확률은 $p$이다. 예를 들어, 이 분포를 이용해 주사위를 던져 6이 관찰되기까지 주사위를 던지는 횟수를 모델링한다. PMF는 아래와 같으며, 평균은 $ 1 \over p$, 분산은 $ {1 - p} \over p^2 $.
$$f(x; p) = (1-p)^{x}p$$
푸아송 확률 변수는 어떤 사건(event)이 $\lambda$의 평균율(average rate)로 일어날 때, 고정된 시간 간격(interval) 또는 고정된 공간 간격에서 일어나는 사건의 수를 센다. 이 분포를 이용해 유성우가 일어날 사건이나, 축구 시합에서 골이 일어날 사건을 모델링 한다. PMF는 아래와 같으며, 평균은 $\lambda$, 분산도 $\lambda$이다.
$$f(x;\lambda) = \dfrac{\lambda^{x}e^{-\lambda}}{x!}$$
음의 이항 확률 변수는 일련의 독립적인 베르누이 확률 실험에서 $r$번의 실패가 일어나기 전에 $p$의 확률로 성공하는 횟수를 센다. 예를 들어, 이 분포를 이용해 동전 던지기에서 세 번의 뒷면이 나오기 전에 앞면이 나오는 수를 모델링한다. PMF는 아래와 같으며, 평균은 $pr \over {1 - p}$, 분산은 $pr \over {(1 - p)^2}$이다.
$$f(x; n,r,p) = \binom{x + r -1}{x}p^{x}(1-p)^{r}$$
이제 연속 확률 분포에 대해 알아본다. 균등(uniform) 분포, 정규 분포(normal), 스튜던트 t 분포(student's t), 카이제곱 분포(Chi-squared), 지수 분포(exponential), F 분포(F distribution), 감마 분포(Gamma), 베타 분포(Beta).
연속 확률 변수는 셀수 없이 무수히 많은 확률 값을 가지며, 모두 실수 이다. 연속 확률 변수 $X$에 대한 PDF(probability density function) $f(x)$와 CDF(cumulative distribution function) $F(x)$는 아래와 같다.
$$P(a\leq X\leq b) =\int^b_a f(x) dx\\$$
$$P(X < x) = F(x)$$
균등 분포
균등 분포는 동일한 길이의 모든 간격에 동일한 확률을 가지는 분포이다. 예를 들어, 사람들의 생일을 모델링할 때 사용한다. 이때, 달력의 모든 시간이 동등한 확률을 가진다고 가정한다. 분포는 아래의 식과 같으며, 평균은 $ {a + b} \over 2 $, 분산은 ${(b - a)^2 \over 12}$.
$$f(x;a,b) = \left\{\begin{array}{ll} \dfrac{1}{b-a} \text{ for } x \in [a,b]\\ 0 \qquad \text{ otherwise } \end{array}\right.$$
정규 분포
정규 분포 혹은 가우시안(Gaussian) 분포는 벨(bell) 모양의 밀도 함수를 가지고, 과학적인 방법에서 많은 작은 효과들에 의해 만들어지는 확률 변수를 나타낼 때 사용한다. 예를 들어 사람들의 신장을 모델링할 때 사용한다. 사람들의 신장은 많고 작은 유전자들과 환경적인 요인들의 결과이다. 분포는 아래와 같으며, 평균은 $\mu$, 분산은 ${\sigma}^2$.
$$f(x;\mu, \sigma^2) = \dfrac{1}{\sqrt{2\pi\sigma^{2}}} e^{-\dfrac{(x-\mu)^{2}}{2\sigma^{2}}}$$
스튜던트 t 분포
스튜던트 t 분포 또는 간단히 t-분포는 표본(sample) 크기가 작고, 모집단의 표준 편차(standard deviation)이 알려져 있지 않을 대, 정규 분포 모집단(population, 관찰 대상이 되는 집단 전체)의 평균을 추정할 때(estimate) 나타난다. 분포는 아래와 같고, 평균은 $0$, 분산은 $k \over {k - 2}$.
$$\dfrac{Z}{\sqrt{U/k}} \qquad \begin{array}{ll} Z \sim N(0,1)\\ U \sim \chi_{k} \end{array}$$
카이제곱 분포
자유도(degree of freedom) $k$를 가지는 카이제곱 확률 변수는 $k$개의 독립항등분포(i.i.d. independent and identically distributed)이며 표준 정규 확률 변수(standard normal random variable)의 제곱한 값의 합을 나타낸다. 이는 가설 검정(hypothesis testing)과 신뢰 구간(confidence interval)을 구성할 때 사용한다. 분포는 아래와 같으며, 평균은 $k$, 분산은 $2k$.
$$\sum_{i=1}^{k}Z_{i}^{2} \qquad Z_{i} \overset{i.i.d.}{\sim} N(0,1)$$
지수 분포
지수 분포는 연속 분포이며, 기하 분포와 비슷하다. 이는 대기 시간(waiting time)을 모델링할 때 사용한다. 분포는 아래와 같고, 평균은 $1 \over \lambda$, 분산은 $1 \over {\lambda}^2$.
$$f(x;\lambda) = \begin{cases} \lambda e^{-\lambda x} & \text{if } x \geq 0 \\ 0 & \text{otherwise} \end{cases}$$
F 분포
F 분포는 Fihser-Snedecor 분포라고도 하며, 통계 검정(test statistic)의 null 분포에서 발생하며, 주로 분산 분석(analysis of variance)에서 사용한다. 분포는 아래와 같고, 평균은 $\dfrac{d_{2}}{d_{2}-2}$, 분산은 $\dfrac{2d_{2}^{2}(d_{1} + d_{2} -2)}{d_{1}(d_{2}-2)^{2}(d_{2}-4)}$.
$$\dfrac{U_{1}/d_{1}}{U_{2}/d_{2}} \qquad \begin{array}{ll} U_{1} \sim \chi_{d_{1}}\\ U_{2} \sim \chi_{d_{2}} \end{array}$$
감마 분포
감마 분포의 특별한 케이스로 지수 분포와 카이제곱 분포가 있다. 분포는 아래와 같고, 평균은 $k\theta$, 분산은 $k{\theta}^2$.
$$f(x; k,\theta) = \dfrac{1}{\Gamma(k)\theta^{k}}x^{k-1}e^{-\dfrac{x}{\theta}}$$
베타 분포
베타 분포는 구간 0과 1사이에서 정의되는 연속 확률 분포이다. 베이즈 통계학에서 켤레 사전 분포(conjugate prior distribution)로 사용된다. 분포는 아래와 같고, 평균은 $\dfrac{\alpha}{\alpha + \beta}$, 분산은 $\dfrac{\alpha\beta}{(\alpha + \beta)^{2}(\alpha + \beta + 1)}$.
$$f(x;\alpha,\beta) = \dfrac{\Gamma(\alpha + \beta)x^{\alpha - 1}(1-x)^{\beta - 1}}{\Gamma(\alpha)\Gamma(\beta)}$$
중심 극한 정리(Central Limit Theorem, CLT)
충분히 큰 수의 i.i.d 확률 변수의 평균은 대략 정규 분포와 비슷해진다. 표본의 수가 클수록, 더 정규분포에 가까워 진다.
빈도 추론(frequentist inference)
통계학의 목표 중 하나는 알려지지 않은 모수(parameter, 모집단population의 특성을 나타내는 값)를 추정(estimate)하는 것이다. 이러한 모수를 추정하기 위해 무작위로 추출한 표본에 대한 함수인 추정량(estimator)을 골라야 한다(추정량을 통해 모수를 추측한다고 생각).
점 추정(point estimation)
신뢰 구간(Confidence Interval)
신뢰 구간은 가능한 값의 범위를 명시해 모수를 추정한다.
부트스트랩(Bootstrap)
대부분의 빈도 추론은 좋은 추정량(estimator)을 사용하는 것이 중요하다. 하지만 이러한 추정량의 정확한 분포를 분석적으로 도출하는데에는 어려움이 있다. 부트스트랩이라는 계산적인 방법을 통해 추정량을 추정할 수 있으며, 표본 추출한 표본(sample)을 다시 표본 추출(resample)하면서 추정량을 추정한다.
한 가지 예를 들면, 모집단(population)에서 표본(sample)을 한 번 추출해 만들어지는 경험적인 분포 함수(empirical distribution function)에서 재표본추출(resample)해서 표본 평균은 표준 오차(standard error)를 추정한다.
베이즈 추론(Bayesian inference)
베이즈 이론(Bayes' theorem)
어떤 질병에 대해 검사했을 때, 검사 결과가 양성(positive)이라면 실제로 이 질병에 걸렸을 확률은 어떻게 되는가?에 대한 질문으로 살펴보자. 베이즈 이론은 이 질문에 대한 확률을 계산할 수 있다.
$$P(\text{Disease}|+) = \frac{P(+|\text{Disease})P(\text{Disease})}{P(+)}$$
검사결과가 양성일 때 실제로 병에 걸린 확률인 사후(posterior) 확률 $P(\text{Disease}|+)$은 사전(prior) 확률 $P(\text{Disease})$에 의존한다. 사전 확률은 일반적인 모집단(population)에서 질병이 나타날 확률이라 생각한다.
사후 확률은 또한 검사 결과의 정확도에 의존한다. 검사 결과가 건강한 사람에 대해 음의 결과(negative result)를 나타내는 $P(-|H)$이 얼마인지, 질병에 걸린 사람에 대한 양의 결과(positive result)일 확률 $P(+|D)$은 얼마인지에 의존한다.
예를 들어, 전체 인구(모집단)에서 병에 걸리 확률이 $1%$이고, 검사 정확도(accuracy)가 $95%$일 때, 검사 결과 양성으로 나타난 사람이 실제 병에 걸렸을 확률을 계산하면 아래와 같다.
$$\begin{aligned}P(\text{Disease}|+) &= \frac{P(+|\text{Disease})P(\text{Disease})}{P(+)} \\ &= \frac{P(+|\text{Disease})P(\text{Disease})}{P(+|Disease)P(Disease)+P(T|Health)P(Health)} \\ &= \frac{0.95 \times 0.01}{0.95 \times 0.01 + 0.05 \times 0.99} = 0.16\end{aligned}$$
가능도(likelihood, likelihood function)
가능도는 베이즈 통계학과 빈도주의 통계학의 토대가 된다. 통계학에서 가능도의 정의는 아래와 같다.
$$L(\theta | x) = P(x | \theta)$$
회귀 분석(Regression analysis)
최소 제곱법(ordinary least squares, OLS)
최소제곱법을 통해 선형 모델(linear model)의 모수를 추정할 수 있다. 데이터세트에서 관찰한 결가와 모델의 예측 사이에서 제곱 오차(squared error)의 합을 최소화하는 선형 모델을 결정하는 방법이다.
상관계수(Correlation)
상관(correlation)은 두 개의 변수 사이의 선형 관계를 측정한다. 정의는 아래와 같다.
$$r = \dfrac{s_{xy}}{\sqrt{s_{xx}}\sqrt{s_{yy}}}$$
$$s_{xy} =\sum^n_{i=1} (x_i-\bar{x})(y_i-\bar{y})$$
$$s_{xx} =\sum^n_{i=1} (x_i-\bar{x})^2$$
$$s_{yy} =\sum^n_{i=1} (y_i-\bar{y})^2$$
두 변수에 의해 결정되는 최소 제곱법의 코사인 각도로 이해할 수도 있다.
분산 분석(Analysis of Variance)
분산 분석(ANOVA)은 데이터 그룹이 같은 평균을 가지는지 검정(test)하는 통계적 방법이다. 분산 분석은 t-검정(t-test)을 일반화해 둘 이상의 그룹을 제곱 오차의 합으로 비교한다.
댓글