시그모이드 함수를 알아보기 전에 선형 회귀에 대해 알아 보자.
1. 선형회귀
선형 회귀는 1차 함수로 표현할 수 있다.
y=ax+b
여기서 a는 기울기(slope)이고 b는 절편(intercepter)이다.
딥러닝 분야에서는 기울기 a를 가중치를 의미하는 w로 표현하고 그리고 결과 y는 ˆy(y햇)으로 표기한다.
즉 선형 회귀 y=ax + b를 딥러닝 분야에서는 ˆy = wx + b와 같이 표현한다.
이러한 결과를 찾기 위해 전통적인 프로그램에서는 사람이 이러한 w와 b 의 값을 찾아 x를 입력받아 ˆy 을 출력하는 문제라면 딥러닝에서는 데이터를 입력 받아 w와 b 값을 찾아내는 모델을 만드는 것이 목적이다.
다음으로 이러한 선형회귀를 확장하여 분류모델(classification)을 만드는 과정을 이해해 보자.
이러한 과정을 로지스틱 회귀라고 한다.
로지스틱 회귀를 이해하기 위해 초창기 인공지능 알고리즘을 살펴 보자.
2. 퍼셉트론
퍼셉트론은 선형구조에서 입력신호가 1개 더 많아졌다.
이를 수식으로 나타내면 다음과 같다.
w1x1 + w2x2 + b = z
이러한 수식을 선형함수라고 부르는데 이렇게 나온 결과값 z가 0보다 크면 1,아니면 -1로 분류 하는 것을 계단함수라고 한다.
위에서는 특성을 2개 사용했는데 특성을 n개 사용한다면 다음과 같이 표현할 수 있다.
$$ z=w_{1} + w_{2} + ... + w_{n} + b = b + \sum_{i=1}^nw_ix_i $$
3. 로지스틱 회귀
로지시틱 회귀는 선형함수를 통과시켜서 얻은 z를 임계함수(계단함수)에 보내기 전에 활성화함수(activation function)를 통과시키는데 이러한 활성화함수를 통과시켜서 얻은 값은 a이다.
이 때 로지스틱 회귀에서는 활성화 함수를 시그모이드 함수를 사용하는데 시그모이드 함수는 z를 0~1 사이의 확률값으로 변환시켜 주는 확률로 해석 할 수 있다.
4. 시그모이드 함수가 만들어지는 과정
시그모이드 함수는 오즈비 > 로짓함수 > 시그모이드 함수 과정으로 만들어진다.
4.1 오즈비
오즈비(odds ratio)는 성공확률과 실패 확률의 비율을 나타내는 통계이며 다음과 같이 정의한다.
$$ OR(odds ratio) = \frac{p}{1-p} $$
오즈비의 값은 p가 0부터 1까지 증가할 때 오즈비 값은 처음에는 천천히 증가하지만 p가 1에 가까워 지면 급격히 증가한다.
4.2 로짓함수
오즈비 함수에 log를 취한 함수가 로짓 함수이다.
$$ logit(p) = log(\frac{p}{1-p}) $$
로짓 함수는 p가 0.5 일때 0 이 되고 0일때 -∞ 1 일때 ∞ 가 되는 특징을 가진다.
4.3 시그모이드 함수
로짓함수 logit(p)를 z에 대해 정리하면 다음과 같은 식이 된다.
$$ log(\frac{p}{(1-p)})=z $$
$$ \frac{p}{(1-p)}=e^{z} $$
$$ p(1+e^z)=e^z $$
$$ p=\frac{e^z}{1+e^z}=\frac{1}{1+e^{-z}} $$
이 모양을 그래프로 그려 보면 다음과 같이 S자 형태를 띄게 된다.
5. 시그모이드 함수를 사용하는 이유
로지스틱 회귀는 이진 분류가 목표이므로 -∞에서 ∞의 범위를 가지는 z의 값을 조절할 방법이 필요했다.
그래서 시그모이드 함수를 통과하면 z를 확률처럼 해석 할 수 있기 때문에 사용하게 되었다.
더욱 자세한 내용은 Do it 정직하게 코딩하며 배우는 딥러닝입문 을 참고하시기 바랍니다.
출처) Do it 정직하게 코딩하며 배우는 딥러닝입문
'강의자료 > 인공지능수학' 카테고리의 다른 글
[인공지능수학]1차 함수로 이해하는 선형 회귀 (7) | 2023.06.16 |
---|---|
[기초수학]신경망에서 많이 사용하는 시그마 (10) | 2023.05.26 |
[기초수학] 수열과 점화식 (13) | 2023.04.05 |
[기초수학] 지수함수 (15) | 2023.03.21 |
[기초수학] 제곱근 (19) | 2023.03.10 |