ADsP
ADsP 3๊ณผ๋ชฉ 5-4 ์ธ๊ณต์ ๊ฒฝ๋ง ๋ถ์ | ์ ๋ฆฌ๐
studyrooom
2024. 9. 30. 16:57
SMALL
์ธ๊ณต์ ๊ฒฝ๋ง: ๋ด๋ด ๋คํธ์ํฌ(๋ ์ ๊ฒฝ์์คํ )์์ ์๊ฐ์ ๋ฐ์ ๋ง๋ค์ด์ง ๋ชจํ
- ๋ถ๋ฅ ๋ฐ ํ๊ท ๋ฌธ์ ์ ์ฌ์ฉ ๊ฐ๋ฅ
๋น์ง๋ ํ์ต์๋ ์ฌ์ฉ ๊ฐ๋ฅ - ๋จ์ํ ๊ณ์ฐ unit์ ๋งค์ฐ ๋ง์ด ์์ฑํ๊ณ ์ด๋ฅผ ์ํธ ๊ฒฐํฉํ๊ฒ๋ ๋ง๋ ์์คํ
์ด๋ฌํ ์์คํ ์ ๋ณต์กํ ํ์์ ์ฌํํ ์ ์์ - ๋ฐ์ดํฐ ๋ด ๋น์ ํ์ ์ธ ๊ด๊ณ๋ฅผ ํฌ์ฐฉํ๊ณ ์ด๋ฅผ ํตํด ๋ชฉํ ๋ณ์๋ฅผ ์์ธก
- ์ผ๋ฐ์ ์ผ๋ก ๋ค์ธต ํผ์
ํธ๋ก ์ ์๋ฏธํจ
์ ๋ณด์ ํ๋ฆ: ์ ๋ ฅ์ธต → ์๋์ธต → ์ถ๋ ฅ์ธต - ์ญ์ ํ ์๊ณ ๋ฆฌ์ฆ(Back Propagation): ์ฐ๊ฒฐ๊ฐ๋๋ฅผ ๊ฐฑ์ ํ๊ธฐ ์ํด ์์ธก๋ ๊ฒฐ๊ณผ์ ์ค์ ๊ฐ์ ์ฐจ์ด์ธ ์๋ฌ์ ์ญ์ ํ๋ฅผ ํตํด ๊ฐ์ค์น๋ฅผ ์กฐ์ (๋ชฉ์ ํจ์๋ฅผ ์ต์ ํ ํ๊ธฐ ์ํด ์ฌ์ฉํจ)
์ธ๊ณต์ ๊ฒฝ๋ง์์ ๋์ผ ์ ๋ ฅ์ธต์ ๋ํด ์ํ๋ ๊ฐ์ด ์ถ๋ ฅ๋๋๋ก ๊ฐ๊ฐ์ ๊ฐ์ค์น(weight)๋ฅผ ์กฐ์ ํ๋ ๋ฐฉ๋ฒ - neuralet( ) ํจ์ ์ฌ์ฉ ์ ์ผ๋ฐํ ๊ฐ์ค์น(generalized weight)๋ ๋ก์ง์คํฑ ํ๊ท๋ชจํ์์์ ํ๊ท๊ณ์์ ๋์ผํ๊ฒ ํด์๋จ
- ์ ์ฉํ ์ํฉ
- ์ ๋ ฅ-์ถ๋ ฅ ๊ฐ ์ํ์ ๊ณต์์ด ๋ถ๋ช ํ์ง ์์ ๋
- ์ค๋ช ๋ณด๋ค๋ ์์ธก ์์ฒด๊ฐ ์ค์ํ ๋
- ํ์ต ๋ฐ์ดํฐ๊ฐ ์์ฃผ ๋ง์ ๋
์ธ๊ณต์ ๊ฒฝ๋ง ๋ถ์์ ์ฅ๋จ์
์ฅ์
- ์ก์์ ๋ฏผ๊ฐํ์ง ์์
- ๋น์ ํ์ ๋ฌธ์ ๋ฅผ ๋ถ์ํ๋ ๋ฐ ์ ์ฉ
- ํจํด์ธ์, ๋ถ๋ฅ, ์์ธก ๋ฑ ๋ฌธ์ ์ ํจ๊ณผ์
- ์ค์ค๋ก ๊ฐ์ค์น๋ฅผ ํ์ตํจ
๋จ์
- ๋ชจํ์ด ๋ณต์กํ ๊ฒฝ์ฐ ์ค๋ ๊ฑธ๋ฆผ
- ์ด๊ธฐ ๊ฐ์ค์น์ ๋ฐ๋ผ ์ ์ญํด๊ฐ ์๋ ์ง์ญํด๋ก ์๋ ดํ ์ ์์
- ์ถ์ ํ ๊ฐ์ค์น์ ์ ๋ขฐ๋ ๋ฎ์
- ๊ฒฐ๊ณผ์ ๋ํ ํด์์ด ์ด๋ ค์
- ์๋์ธต์ ์์ ์๋ ๋ ธ๋์ ์๋ฅผ ์ ํ๊ธฐ ์ด๋ ค์
์ธ๊ณต์ ๊ฒฝ๋ง ์์
- ์ ๋ ฅ ๋ด๋ฐ: ์ ๋ ฅ ๋ณ์์ ๊ฐ ํน์ ์ ํํ๋ ๊ฐ์ ๊ฐ์ง๊ณ ์์
- ํ๋ (์๋) ๋ด๋ฐ: ๋ด๋ถ ์ฐ์ฐ์ด ๋ฐ์ํ๋ ๋ด๋ฐ / ๋น์ ํ์ฑ์ ๋ํจ
- ์ถ๋ ฅ ๋ด๋ฐ: ์์ธก๊ฐ์ ๊ณ์ฐํ๋ ๋ด๋ฐ
- RNN, CNN, GAN
ํ์ฑํ ํจ์
์
๋ ฅ ์ ํธ์ ์ดํฉ์ ์ถ๋ ฅ ์ ํธ๋ก ๋ณํํ๋ ํจ์
์
๋ ฅ๋ณ์์ ์์ฑ์ ๋ฐ๋ผ ํ์ฑํ ํจ์ ์ ํ X
๋ค์ ์ธต์ผ๋ก ์ด๋ป๊ฒ ์ถ๋ ฅํ ์ง ๊ฒฐ์ ํจ
๊ฐ ๋ด๋ฐ์์ ์ฐ์ฐ๋ ๊ฐ์ ํ์ฑํ ํจ์(activation function)๋ฅผ ํต๊ณผํจ (ํ๋ ์ ๋ or ์ถ๋ ฅ์ ๋)
ํ์ฑํ ํจ์๋ ํ์ต ๋์์ด ์๋ (ํ๋ผ๋ฏธํฐ ์์)
- ๊ณ๋จ(step) ํจ์
- ์๊ทธ๋ชจ์ด๋ ํจ์ Logistic Function (=sigmoid function)
$g(x)=\frac{1}{1+exp(-x)}$
- 0~1 ์ฌ์ด์ ๊ฐ ์ถ๋ ฅ
- ์ด์ง ๋ถ๋ฅ ์ถ๋ ฅ์ ๋์ ์ฃผ๋ก ์ฌ์ฉ
- ๋จ์ธต์ ๊ฒฝ๋ง์์ ํ์ฑํ ํจ์๋ก ์ฌ์ฉํ๋ฉด ๋ก์ง์คํฑ ํ๊ท๋ชจํ๊ณผ ์๋์๋ฆฌ๊ฐ ์ ์ฌํจ
*๋จ์ธต์ ๊ฒฝ๋ง: ์ ๋ ฅ์ธต์ด ์ง์ ์ถ๋ ฅ์ธต์ ์ฐ๊ฒฐ๋จ - ํ๊ท๊ณ์๊ฐ ์์๋ฉด ์ญ S์ ๊ทธ๋ํ๊ฐ ๋ํ๋จ
- Hyperbolic Tangent Function (Tanh)
$g(x)=\frac{exp(x)-exp(-x)}{exp(x)+exp(-x)}$
- -1~1 ์ฌ์ด์ ๊ฐ ์ถ๋ ฅ
- ์ด์ง ๋ถ๋ฅ ์ถ๋ ฅ์ ๋์ ์ฃผ๋ก ์ฌ์ฉ
- Softmax Function
- ๋ค์ง ๋ถ๋ฅ์ ์ฌ์ฉ
- ReLU $=max(x,0)$
- ๋ฅ๋ฌ๋ ๋ชจํ์ ๋ง์ด ์ฌ์ฉํจ
- ๋ฅ๋ฌ๋ ๋ชจํ์ ๋ง์ด ์ฌ์ฉํจ
๋จ์ผ ๋ด๋ฐ์ ํ์ต (๋จ์ธต ํผ์
ํธ๋ก )
์ดํ๋ฉด(Hyperplane)
์ธ๊ณต์ ๊ฒฝ๋ง ํ์ต ์ ์ ์ฌํญ
- ์
๋ ฅ ๋ณ์
ํน์ ๋ณ์์ ์ค์ผ์ผ์ด ์ง๋์น๊ฒ ํฌ๊ฑฐ๋ ์์ ๋ ๋ชจํ ํ์ต์ ํฌ๊ฒ ์ํฅ์ ์ค ์ ์์ด ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ ๊ณผ์ ์ด ํ์ํจ - ๊ฐ์ค์น ์ด๊น๊ฐ
์ธ๊ณต์ ๊ฒฝ๋ง ํ์ต์ ์ฌ์ฉ๋๋ ์ญ์ ํ ์๊ณ ๋ฆฌ์ฆ์ ๋ชจํ์ ํ๋ผ๋ฏธํฐ ์ด๊น๊ฐ ์ํฅ์ ๋ง์ด ๋ฐ์
๋๋คํ๊ฒ ์ด๊ธฐํ(initialize)ํ๋ ์๊ณ ๋ฆฌ์ฆ ๋ณ๋๋ก ์ ์ฉ - ์๋์ธต ์
์๋์ธต ์๊ฐ ๋ง์์๋ก ๋ชจํ์ ๋ณต์ก๋๊ฐ ์ฌ๋ผ๊ฐ → ๊ณผ์ ํฉ ๋ฐ์ → ๋คํธ์ํฌ์ ์ผ๋ฐํ ์ด๋ ค์
๋๋ฌด ์ ์ผ๋ฉด ๋คํธ์ํฌ๊ฐ ๋ณต์กํ ์์ฌ๊ฒฐ์ ๊ฒฝ๊ณ ์์ฑ์ด ์ด๋ ค์
์๋์ธต์ ๋ด๋ฐ์ ๊ฐ์์ ์๋์ธต์ ๊ฐ์๋ ์ง์ ์ค์ ํด์ผ ํ๋ฏ๋ก ์ฌ๋์ ์ง๊ด, ๊ฒฝํ์ ์์กดํจ (์๋X) - ํ์ต๋ฅ (learning rate)
๋ชจํ์ด ํด(solution)์ ๋๋ฌํ๋ ์๋ ๋ฐ ์ ๊ตํจ์ ์ปจํธ๋กคํ๋ ๋งค๊ฐ๋ณ์ (์ ์ ํ ํฐ ๊ฐ์์ decay) - ๊ณผ๋ ์ ํฉ ๋ฐฉ์ง
- ์กฐ๊ธฐ ์ข ๋ฃ(early stop): ๋ชจํ์ ๊ฒ์ฆ ์ค์ฐจ๊ฐ ๋ ์ด์ ๊ฐ์ํ์ง ์์ผ๋ฉด ํ์ต ์ค๋จ
- ํจ๋ํฐ ๋ถ์ฌ: ๊ฐ์ค์น๊ฐ ์ง๋์น๊ฒ ์ปค์ง๋ ๊ฒ์ ๋ง๊ธฐ ์ํ ํจ๋ํฐ ๋ถ์ฌ
๋ฅ๋ฌ๋
- ์ธ๊ณต์ ๊ฒฝ๋ง ๊ตฌ์กฐ์์ ์๋์ธต(hidden layer)์ ๋ณต์๋ก ์ค์ ํ์ฌ ๋ชจํ์ ๋ณต์ก๋๋ฅผ ๋ํ ๊ตฌ์กฐ
- ํผ๋ ํฌ์๋ ์ ๊ฒฝ๋ง: ์ ๋ณด๊ฐ ์ ๋ฐฉ์ผ๋ก ์ ๋ฌ๋๋ ๊ฒ์ผ๋ก ์๋ฌผํ์ ์ ๊ฒฝ๊ณ์์ ๋ํ๋๋ ํํ๋ก ๋ฅ๋ฌ๋์ ํต์ฌ ๊ตฌ์กฐ ๊ฐ๋ ์
- ๋ฅ๋ฌ๋ ์ํํธ์จ์ด
- TensorFlow
- Caffe
- Theano
- Mxnet
- Keras
- PyTorch
๋ฐ์ํ
LIST