1. 중심극한정리(central limit theorem)란?
확률론과 통계학에서 중심극한정리는 동일한 확률분포를 가진 독립확률변수 n개의 평균의 분포는 n이 적당히 크다면 정규분포에 가까워진다는 정리이다.
이 의미는 다음과 같다.
모집단이 있을 때 여기서 30개의 샘플을 뽑아 표본을 만든다. 그 다음 표본의 평균을 계산한다.
이런 과정을 여러 번 반복해서 1000개의 평균을 만들어 놓는다. 그리고 이 1000개의 평균을 히스토그램으로 그리면 놀랍게도 정규분포를 따른다.
현실에서는 표본을 수집하는 일에 비용이 많이 들지만 파이썬 프로그램을 사용해 이런 과정을 간단히 묘사할 수 있다.
예를 들어 남산도서관 대출데이터를 가지고 확인을 해 보자.
혼자공부하는데이터분석 에서 제공하는 자료 ( https://bit.ly/3pK7iuu ) 를 가지고 실습을 진행해 보자.
2. 샘플링하기
ns_book7 = pd.read_csv('ns_book7.csv', low_memory=False)
sample_means = []
for _ in range(1000):
m = ns_book7['대출건수'].sample(30).mean() #30개의 데이터를 샘플링하여 평균을 계산한다.
sample_means.append(m)
대출건수의 30개를 무작위로 선택하여 평균을 구해서 sample_means 에 추가하는 과정을 1000번 반복하였다.
히스토그램을 살펴 보면 다음과 같다.
plt.hist(sample_means, bins=30)
plt.show()
정규분포와 유사한 분포를 형성하고 있는 것을 확인할 수 있다.
3. 샘플링 크기와 정확도
그렇다면 이렇게 무작위로 뽑은 표본의 통계량이 실제 모집단의 통계량과 얼마나 일치할까?
재미 있는 사실은 이 정규분포 형태의 평균이 모집단의 평균과 매우 가깝다는 것이다.
sample_means 배열의 평균을 확인해 보자.
np.mean(sample_means)
11.539900000000001
이번에는 ns_book7 데이터의 전체 대출건수의 평균을 확인해 보자.
ns_book7['대출건수'].mean()
11.593438968070707
두 평균이 비슷한 것을 알 수 있다.
샘플링 크기를 30으로 정했는데 일반적으로 중심극한 정리를 따르려면 샘플링의 크기가 클 수록 좋다.
sample_means = []
for _ in range(1000):
m = ns_book7['대출건수'].sample(100).mean()
sample_means.append(m)
plt.hist(sample_means, bins=30)
plt.show()
100개의 샘플을 추출하여 평균값을 1000개 만든 그래프이다.
좀 더 정규분포에 가까운 그래프가 나오는 것을 알 수 있다.
4. 중심극한 정리는 왜 중요한 것일까?
위에서 샘플을 추출해서 평균을 계산했을때 샘플의 갯수가 작을 수록 실제평균과 거리가 멀어지고 샘플의 갯수가 많을 수록 실제평균과 가까워 지는 것을 확인 할 수 있다.
또 다른 특징은 표본평균의 표준편차가 모집단의 표준편차를 표본크기의 제곱근으로 나눈것에 가깝다는 것이다.
즉 표본평균의표준편차 = 모집단의 표준편차/ 포본에포함된 샘플개수의 제곱근 의 공식을 따른다.
이 공식이 잘 맞는지 확인해 보자.
np.std(sample_means) #표준편차
3.0355987564235165
np.std(ns_book7['대출건수']) / np.sqrt(40) #모집단을 샘플개수의 제곱근으로 나눈값
3.048338251806833
많이 비슷한 것을 알 수 있다.
이렇게 구한 표본평균의 표준편차는 표준오차(standard error)라고 한다.
중심극한 정리가 중요한 이유는 바로 다음과 같다.
모집단이 어떤 분포를 가지고 있던지 관계 없이 표본의 크기가 충분히 크다면, 표본 평균들의 분포가 모집단의 모수를 기반으로한 정규분포를 이룬다는 점을 이용하여 특정 사건이 일어날 확률값을 계산 할 수 있게 된다.
예를 들어 대통령선거에서 출구조사만으로 결과를 어느정도 예측 할 수 있는 것이 전체 투표한 사람(모집단)을 모두 확인하지 않고 투표를 하고 나오는 사람중 일정한 사람을 표본으로 하여 확률을 구할 수 있는 근거가 바로 중심극한정리의 원리이다.
주의할 점은 표본이 충분하지 않은 상황에서 정규분포로 가정하는 것은 맞지 않다는 것이다.
참고] 한빛미디어 - 혼자공부하는데이터분석
'강의자료 > 인공지능수학' 카테고리의 다른 글
[기초수학] 제곱근 (19) | 2023.03.10 |
---|---|
[인공지능수학] 신뢰구간(Confidence Interval) (17) | 2023.02.24 |
[인공지능수학] 누적분포 (14) | 2023.02.03 |
[인공지능수학] 표준점수 (18) | 2023.01.27 |
[인공지능수학] 호도법/도수법 실습하기 (20) | 2023.01.20 |