본 글은 유투브 '빅데이터 분석기사 필기(통계 기초 고등수학13강 마스터)' 강의를 듣고 정리한 내용입니다.
<모비율/표본비율>
500명 中 수학 좋아하는 학생 200명 → 모비율 $p=\frac{200}{500}=\frac{2}{5}=40\%$
임의추출한 100명 中 수학 좋아하는 학생 30명 → 표본비율 $\hat{p}=\frac{30}{100}=30\%$
- 표본비율의 평균 $E(\hat{p})=p$
- 표본비율의 분산 $V(\hat{p})=\frac{pq}{n}=\frac{p(1-p)}{n}$
⇒ 표본비율의 분포 $\hat{p}\sim N(p,\frac{pq}{n})$
<모비율 추정>
① 모비율을 알고있는 경우,
- 95% 신뢰구간 $\hat{p}-1.96\sqrt{\frac{pq}{n}}≤p≤ \hat{p}+1.96\sqrt{\frac{pq}{n}}$
- 99% 신뢰구간 $\hat{p}-2.58\sqrt{\frac{pq}{n}}≤p≤ \hat{p}+2.58\sqrt{\frac{pq}{n}}$
② 모비율을 모르더라도 표본이 충분히 크면(n≥30),
- 95% 신뢰구간 $\hat{p}-1.96\sqrt{\frac{\hat{p}\hat{q}}{n}}≤p≤ \hat{p}+1.96\sqrt{\frac{\hat{p}\hat{q}}{n}}$
- 99% 신뢰구간 $\hat{p}-2.58\sqrt{\frac{\hat{p}\hat{q}}{n}}≤p≤ \hat{p}+2.58\sqrt{\frac{\hat{p}\hat{q}}{n}}$
③ 모비율을 모르고 추출하는 개수(n)가 작을 때,
$\hat{p}-t_\frac{\alpha}{2}(n-1)\sqrt{\frac{\hat{p}\hat{q}}{n}}≤p≤ \hat{p}+t_\frac{\alpha}{2}(n-1)\sqrt{\frac{\hat{p}\hat{q}}{n}}$
ex) 10000명 추출 → 수학 좋아하는 학생 비율 20% 일 때, 우리나라 전체인구의 수학 좋아하는 사람 비율? (95% 신뢰구간)
$20\%-1.96\sqrt{\frac{\frac{2}{10}\frac{8}{10}}{10000}}≤p≤ 20\%+1.96\sqrt{\frac{\frac{2}{10}\frac{8}{10}}{10000}}$
반응형