베이지안 확률이란
베이지안 확률은 간단히 말해서 "새로운 정보를 바탕으로 확률을 업데이트 하는 방법"이다.
이 개념은 영국의 수학자 토머스 베이즈의 이름을 따서 만들어졌다.
예를 들어 하늘을 보니 먹구름이 잔뜩 끼어 있다. 이런 상황에서 비가 올 확률이 높다고 생각할 것이다. 그런데 누군가가 "이곳은 사막 지역이라 비가 올 가능성이 거의 없어" 라고 알려 준다면 이 정보를 바탕으로 비가 올 확률을 다시 생각하게 될 것이다. 이처럼 새로운 정보를 더할 때 확률을 재계산하는 것이 베이지안 확률의 핵심 아이디어이다.
베이지안 확률 계산 방법
- P(A|B) : 사건 A가 B라는 정보를 바탕으로 일어날 확률(사후 확률) - 먹구름이 잔뜩 낀 상황(B)를 기반으로 비가 올 확률(A)을 계산한 값으로 새롭게 제공된 정보를 바탕으로 우리가 알고자 하는 결과(사막지역이라는 정보를 고려했을 때의 비가 내릴 확률)
- P(B|A) : 사건 B가 A라는 조건에서 일어날 확률(우도) - 비가 온다고 가정했을 때, 먹구름이 낀 상황일 확률,즉 비가 내리는 날이라면 먹구름이 있을 가능성이 높을 것이다.(비가 오면 먹구름이 끼는 것은 흔하기 때문에 우도가 높다)
- P(A) : 사건 A가 일어날 확률(사전확률) - 사막지역에서 비가 올 확률( 아무 정보가 없을 때(먹구름 등) 비가 올 가능성 즉 사막 지역이라면 비가 올 확률은 아주 낮을 것이다.
- P(B) : 사건 B가 일어날 확률 - 먹구름이 끼는 확률 즉 사막지역에서는 먹구름이 잘 생기지 않으니 P(B)도 낮을 것이다.
베이지안 확률의 예
병원에서의 진단 테스트
- 어떤 병(A)에 걸릴 확률이 1%라고 가정합니다. 즉, 100명 중 1명이 이 병에 걸려 있을 가능성이 있다고 알려져 있습니다.
- 병원을 방문한 사람에게 테스트를 실시했는데, 이 테스트는 병이 있는 경우 99% 정확도로 '양성' 결과를 내고, 병이 없는 경우에도 5% 확률로 '양성'(오류) 결과를 낼 수 있습니다.
- 이제, 한 사람이 테스트 결과가 '양성'으로 나왔다면, 이 사람이 실제로 병에 걸렸을 확률은 얼마일까요?
이 문제를 풀기 위해 베이즈 정리를 사용합니다. 베이즈 정리는 다음과 같습니다:
여기서,
- P(A|B): 테스트가 '양성'(B)일 때 병(A)에 걸렸을 확률
- P(B|A): 병(A)에 걸렸을 때 테스트가 '양성'(B)일 확률
- P(A): 병(A)에 걸릴 사전 확률 (1%)
- P(B): 테스트가 '양성'(B)일 전체 확률
이제 계산을 진행하면 다음과 같습니다:
- P(A) = 0.01
- P(B|A) = 0.99
- P(not A)=0.99
- P(B∣not A)=0.05
전체 '양성' 확률 P(B)를 계산:
마지막으로 P(A|B)를 계산:
즉, 테스트 결과가 양성이라도 실제로 병에 걸렸을 확률은 약 16.67%입니다. 처음 병에 걸릴 확률은 1%였지만, 테스트 결과를 통해 확률을 업데이트한 것입니다.
이처럼 베이지안 확률은 기존 지식(사전 확률)을 새로운 증거와 결합해 결과를 도출하는 데 유용합니다!
머신러닝 사용예
베이지안 분류기
- 나이브 베이지안 분류기는 가장 대표적인 베이지안 확률 활용 사례입니다. 이 알고리즘은 각 클래스가 주어진 데이터에 속할 확률을 계산하여 가장 가능성이 높은 클래스를 예측합니다.
- 예: 이메일 필터링에서, 이메일의 특정 단어들이 스팸에 나타날 확률을 계산하여 해당 이메일이 스팸인지 아닌지를 분류합니다.
베이지안 최적화
- 머신러닝 모델의 하이퍼파라미터 튜닝을 위해 사용됩니다. 모델의 성능을 최적화하기 위해 탐색 공간 내에서 가장 유망한 하이퍼파라미터를 확률적으로 선택합니다.
- 예: 신경망의 학습률이나 결정 트리의 깊이를 최적화할 때 사용합니다.
베이지안 확률은 특히 불확실성을 다루거나 사전 지식을 효과적으로 활용해야 하는 상황에서 매우 강력합니다
사업자 정보 표시
원당컴퓨터학원 | 기희경 | 인천 서구 당하동 1028-2 장원프라자 502호 | 사업자 등록번호 : 301-96-83080 | TEL : 032-565-5497 | Mail : icon001@naver.com | 통신판매신고번호 : 호 | 사이버몰의 이용약관 바로가기
'강의자료 > 인공지능수학' 카테고리의 다른 글
[인공지능수학] 고유 값,고유 벡터 (3) | 2025.03.20 |
---|---|
[인공지능수학]확률변수,확률분포,확률함수 (2) | 2025.03.17 |
[인공지능 수학]랭크(rank) (5) | 2025.03.11 |
[학생부종합전형] 행렬의 종류 판단하는 프로그램 (4) | 2025.03.10 |
[학생부종합전형]행렬계산기 (2) | 2025.03.07 |