1. NER
NER์ Named Entity Recognition์ ์ฝ์๋ก, ๋จ์ด๋ฅผ ์ฐพ์ ๋ถ๋ฅํ๊ณ ์นดํ ๊ณ ๋ฆฌํ์ํค๋ ์์ ์ด๋ค. ๋ค์์ ์์๋ก ๋ค์ด๋ณด์.
์ฌ๊ธฐ์ Paris๋ผ๋ ๋จ์ด๋ฅผ ๋จ์ด์ฅ์์ ์ฐพ์ผ๋ฉด ํ๋์ค์ ํ๋ฆฌ๊ฐ ์ฐพ์์ง์ง๋ง, ๋ณธ๋ฌธ์์๋ ์ฌ๋ ์ด๋ฆ์ผ๋ก ์ฌ์ฉ๋์๋ค. ์ด๋ ๋ฏ, NER์ ์ ํํ๊ฒ ํ์ ํ๊ธฐ ์ํด์๋ ํญ์ context๋ฅผ ๊ณ ๋ คํด์ผ ํ๋ค.
์ด๊ฑธ Neural Network์ผ๋ก ์ด๋ป๊ฒ ํ ์ ์์๊น?
Simple NER: Window classification using binary logistic classfier
๋จผ์ ์์ด๋์ด๋ word vectors๋ฅผ ์ด์ฉํด์ word vectors๋ก ์ด๋ฃจ์ด์ง context window๋ฅผ ๋ง๋ค๊ณ , ๊ทธ๊ฑธ neural network layer์ ๋ฃ๊ณ , logistic classifier๋ฅผ ํต๊ณผ์์ผ ํด๋น ๋จ์ด๊ฐ ๋ฌด์์ ๋ํ๋ด๋์ง ๋ถ์ํ๋ค. ์์๋ก, ๋ค์ ๋ฌธ์ฅ์ ์๊ฐํด ๋ณด์.
์ด ๋ฌธ์ฅ๋ค์์ Paris์ ๋ํด์ ์๊ณ ์ถ์ผ๋ฉด, ๋จ์ด 'Paris'๋ฅผ ๊ธฐ์ค์ผ๋ก +-2 ๋งํผ ํฌ๊ธฐ์ ๋จ์ด๋ค์ ๊ฐ์ ธ์ window๋ฅผ ๋ง๋ ๋ค.
window๋ค์ ๊ฐ ๋จ์ด์ ๋ํด, word2vec์ด๋ Glove ๋ฑ์ ์ฌ์ฉํด์ ๋จ์ด๋ฅผ word vector๋ค๋ก ๋ง๋ค๊ณ , ์ด ๋ฒกํฐ๋ค์ classifier์ ์ ๋ฌํ๋ค. ๊ทธ๋ผ ๊ฒฐ๊ณผ๋ก, ํด๋น ๋จ์ด๊ฐ ์์น ์ ๋ณด๋ฅผ ๋ํ๋ผ ํ๋ฅ ์ ๊ฐ์ง ์ ์๋ค. ๋ ๋ค๋ฅธ classifier๋ฅผ ํต๊ณผํ๋ฉด ํด๋น ๋จ์ด๊ฐ ์ฌ๋์ ์ด๋ฆ์ธ์ง ํ๋จํ ์๋ ์๋ค. (์ด๋ ๋ ๋ค binary logistic classifier๋ฅผ ํ์ฉํ ์์์ด๋ค.) ๊ณผ์ ์ ๋ค์๊ณผ ๊ฐ๋ค:
๋ง์ฝ D dimention word vector๋ค์ด ์๋ค๋ฉด, input(x)์ 5D dimention์ window๊ฐ ๋๋ค. ์ด๋ฅผ neural network์ layer์ ๋ฃ์ผ๋ฉด, ํด๋น layer์์๋ vector(x)๋ฅผ matrix(W)์ ๊ณฑํ๊ณ , bias vector(b)๋ฅผ ๋ํด softmax์ ๊ฐ์ ๋น์ ํ์ฑ(f)์ ๋ฃ๋๋ค. ๊ทธ๋ผ ๊ฒฐ๊ณผ๋ก hidden vector(h)๋ฅผ ์ป๊ฒ ๋๋๋ฐ, ์ด๋ ํจ์ฌ ์์ ์ฐจ์์ด ๋ ์ ์๋ค. ์ดํ, ํด๋น hidden vector์ ์ถ๊ฐ์ ์ธ vector(u)์ dot product๋ฅผ ์ํํ์ฌ ํ๋์ ์ค์ ์ซ์ ์ค์ (s)๋ฅผ ์ป๊ฒ ๋๋ค. ์ดํ, ํด๋น ์ซ์ s๋ฅผ logistic classifier์ ๋ฃ์ด ๊ฒฐ๊ณผ๋ก ๋จ์ด์ ์์ธก ํ๋ฅ ์ ๋ฐํํ๋ค.
2. Stochastic Gradient Descent
์์ ์ ๊ฒฝ๋ง์ ๊ณ์ฐํ๊ธฐ ์ํด 1) ์์ผ๋ก ์ง์ SGD๋ฅผ ์ ์ฉํ๋ ๋ฐฉ๋ฒ๊ณผ, 2) ์์คํ ์ผ๋ก SGD๋ฅผ ์ ์ฉํ๋ ๋ฐฉ๋ฒ์ ๋๋์ด ์ค๋ช ํ๋ค.
๊ฐ๊ฐ์ ๋ํด ์ค๋ช ํ๊ธฐ ์ , ๋จผ์ SGD๊ฐ ์ด๋ค ์์ ์ธ์ง ์์๋ณด์.
๋ชจ๋ธ์ ์์ค์ ์ค์ด๊ณ ํ๋ผ๋ฏธํฐ๋ฅผ ์ ์ ๋ฐ์ดํธํ๊ธฐ ์ํด, ๋ณธ ๊ฐ์์์๋ Stochastic Gradient Descent ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ค.
๊ทธ๋ ๋ค๋ฉด SGD์ Gradient Descent์์ ์ฐจ์ด์ ์ ๋ฌด์์ธ์ง ๊ถ๊ธํด์ ์ฐพ์๋ณด๊ฒ ๋์๋ค.
๋จผ์ Gradient Descent๋ ์ต์ loss๋ฅผ ์ฐพ๊ธฐ ์ํด ํ ์ง์ ์์ ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ง์ ์ ์ฎ๊ฒจ๋๊ฐ๋ ๋ฐฉ์์ด๋ค.
๊ทธ๋ฌ๋, ์ด ๋ฐฉ๋ฒ์์๋ ๊ฒฝ์ฌ๋ฅผ ๊ณ์ฐํ๋ ๋ฐ ์ฌ์ฉ๋๋ ์์ ์งํฉ, batch ๊ฐ ๋ชจ๋ data์ด๋ค. ์ฆ, dataset์ ์์ญ, ์๋ฐฑ์ต ๊ฐ์ ๋ฐ์ดํฐ๊ฐ ์์ผ ์๋ ์๋ค๋ ๋ป์ด๋ค. ์ด๋ ๊ฒ ํฐ batch๋ฅผ ์ฌ์ฉํ๋ฉด ๊ณ์ฐ์ ์ํด ๋๋ฌด ๋ง์ ์๊ฐ์ ์ฌ์ฉํ๊ฒ ๋๋ค๋ ๋จ์ ์ด ์๋ค.
์ด๊ฒ์ ๋ณด์ํ๊ธฐ ์ํด ๋์จ ๋ฐฉ๋ฒ์ด SGD์ธ๋ฐ, ์ด๋ ํ ๋ฒ์ ๋ฐ๋ณต๋น ๋จ ํ ๊ฐ์ batch๋ง์ ๋ฌด์์๋ก ๋ฝ์ ์ฌ์ฉํ๋ ๋ฐฉ์์ด๋ค. '๋ฌด์์'๋ก ํ๋์ ๋ฐ์ดํฐ๋ง์ ์ ํํ๊ธฐ ๋๋ฌธ์, ๋ ธ์ด์ฆ๊ฐ ์ฆ๊ฐํ๋ค๋ ๋จ์ ์ด ์๋ค.
๊ทธ๋์ SGD๋ฅผ ๋ณด์ํ๊ธฐ ์ํด ๋์จ ๋ฐฉ๋ฒ์ด Mini Batch SGD์ธ๋ฐ, ๋ง ๊ทธ๋๋ก 10~1000๊ฐ ์ ๋์ batch๋ฅผ ์ฌ์ฉํ๋ ๋ฐฉ์์ด๋ค. ์ด ๋ฐฉ๋ฒ์ด ํจ์ฌ ์์ ์ ์ด๋ฉด์ ํจ์จ์ ์ด๋ผ๊ณ ํ๋ค.
์ด์ ๋ ๊ฐ์ง ๋ฐฉ๋ฒ์ผ๋ก gradient๋ฅผ ๊ณ์ฐํ๋ ๋ฐฉ๋ฒ์ ๋ํด ์์๋ณด์.
1. Computing Gradients by Hand
๋จผ์ , ์์ผ๋ก ๊ณ์ฐํด ๋ณด๋ ๋ฐฉ๋ฒ์ด๋ค. ์ด๋ vectorized gradients๋ฅผ ๊ณ์ฐํ๋๋ฐ, ์ด๋ ์ด๋ค ํญ๋ชฉ์ด ๋ณํ์ ๋, ๊ทธ ํญ๋ชฉ์ ๋ณํ๋์ด ์ต์ข ๊ฒฐ๊ณผ๋ฌผ์ ์ผ๋ง๋งํผ์ ๋ณํ๋ฅผ ์ฃผ๋๊ฐ์ ๋ํด์ ์์๋ณธ๋ค.
๋จผ์ f(x) = f(x1, x2,... , xn)์ด๋ผ๊ณ ํ์. ๊ทธ๋ผ df/dx๋ partial derivatives์ ๋ํ vector ํํ์ด๊ณ , ๋ค์๊ณผ ๊ฐ์ด ๋ํ๋ผ ์ ์๋ค:
์ดํ, Jacobian Matrix๋ฅผ ๋์ ํ๋ค. ๋จผ์ , n๊ฐ์ input์ผ๋ก m๊ฐ์ output์ ๋ง๋๋ ํจ์ f(x)๊ฐ ์๋ค๊ณ ๊ฐ์ ํ์. ์ด๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋๋ค: f(x) = [f1(x1, x2, x3,..., xn),..., fn(x1, x2, x3,..., xn)]
์ฌ๊ธฐ์ df/dx๋ฅผ ๊ตฌํ๋ฉด, ๋ค์๊ณผ ๊ฐ์ด m*n matrix๋ก ๋ํ๋ผ ์ ์๋๋ฐ, ์ด๊ฒ์ Jacobian matrix๋ผ๊ณ ํ๋ค.
๊ทธ๋ ๋ค๋ฉด, ๋ค์ ์์ ๋ฌธ์ ๋ฅผ ์๊ฐํด ๋ณด์.
f๊ฐ softmax ํจ์์ผ ๊ฒฝ์ฐ, h=f(z), z=Wx+b ๋ฅผ ๋ง์กฑ์ํค๋ h, f, z, W, b ๊ฐ ์๋ค๊ณ ํ์. (h, z๋ ๋ ๋ค n์ฐจ์์ด๋ค.)
Q. ์ฌ๊ธฐ์ dh/dz๋ฅผ ์ด๋ป๊ฒ ๊ตฌํ ๊น?
A. ๋ต์ ๋ค์๊ณผ ๊ฐ๋ค:
๋น์ฐํ, j ์์์ ๋ํ i ์์์ ํธ๋ฏธ๋ถ ๊ฐ์ ๊ตฌํ๋๋ฐ, j์ ๊ด๋ จ์ด ์์ผ๋ฉด ๊ทธ ๊ฐ์ 0์ด ๋ ๊ฒ์ด๋ค. ๊ทธ๋ฌ๋ฏ๋ก, i์ j๊ฐ ๊ฐ์ ๋๋ง ๊ฐ์ด ๋์ค๊ณ , ๊ทธ ๊ฒฐ๊ณผ๋ก jacobian matrix๋ ๋๊ฐํ๋ ฌ์ด ๋๋ค.
๋ค๋ฅธ jacobain matrix์ ์์๋ก ๋ค์๊ณผ ๊ฐ์ ๊ฒ๋ค์ด ์๋ค:
๋ง์ง๋ง์ ๋ด์ ๊ณฑ์ ๋ํ jacobian์ธ๋ฐ, ์ด๋ ๋ค ์์์ ์ ์น๋ ํ๋ ฌ์ด ๊ฒฐ๊ณผ๊ฐ ๋๋ค.
Back to NeuralNet
์๋๋ loss J๋ฅผ ์ค์ด๋ ๊ฒ์ด ๋ชฉ์ ์ด์ง๋ง, ๊ฐ๋จํ๊ฒ score s์ gradient๋ฅผ ๊ณ์ฐํ๋ ๊ฒ์ผ๋ก ๋์ ํด ๋ณด์. ๊ทธ๋ผ ๊ตฌํด์ผ ํ ๊ฒ์ ds/db๊ฐ ๋๋ค. ์ฃผ์ด์ง ์๋ค๊ณผ Chain rule์ ์ ์ฉํด์ ๊ณ์ฐํ ๊ฒฐ๊ณผ๋ ๋ค์๊ณผ ๊ฐ๋ค:
๋ง์ง๋ง์ ํฐ์ ๋๊ทธ๋ผ๋ฏธ๋ Hadamard product๋ฅผ ๋ปํ๋ค.
Reusing Computation
์ด์ ds/db๋ฅผ ๊ตฌํ์ผ๋, ds/dW๋ฅผ ๊ตฌํ๋ ค๊ณ ํ๋ค๊ณ ๊ฐ์ ํ์. ์ด๊ฑธ Chain Rule์ ์ฌ์ฉํด์ ๋ํ๋ด๋ฉด ๋ค์๊ณผ ๊ฐ๋ค:
ds/dW = ds/dh * dh/dz * dz/dW
๊ทผ๋ฐ, ์ด๋ ds/db๋ฅผ ๊ตฌํ๋ ์ ์ฌ์ง์ ์๊ณผ ์ 2 ์์๊ฐ ์์ ํ ๊ฐ๋ค. ๋ฐ๋ผ์, duplicated computation์ ํผํด๋ณด๋๋ก ํ๊ฒ ๋ค.
ํ๋์ ๋ถ๋ถ์ delta๋ก ๋ํ๋ด๋ฉด, ์๋์ ๊ฐ์ด ์๋ค์ ๋ค์ ์ ๋ฆฌํ ์ ์๋ค.
์ด๋ฌ๋ฉด, ๋ณต์กํ ๋๊ฐ์ ๊ณ์ฐ์ ๋ ๋ฒ ํ๋ ๊ฒ์ ๋ฐฉ์งํ ์ ์๋๋ฐ, ์ฌ๊ธฐ์์ delta๋ฅผ local error signal์ด๋ผ๊ณ ํ๋ค.
Output Shape - Shape Convention
์๋์ ds/dW๋ W์ ๊ฐ์ ํฌ๊ธฐ๋ฅผ ๊ฐ์ ธ์ผ parameter๋ฅผ ์ ๋ฐ์ดํธํ ์ ์๋ค.
๊ทธ๋ผ, ๊ณ์ฐ์ ํตํด ์์ฑ๋ matrix์ ๋ชจ์์ ๋ณด์. s๋ ํ๋์ score์ด์ด์ผ ํ๋ฏ๋ก, output์ 1์ฐจ์์ด ๋์ด์ผ ํ๋ฏ๋ก, ds/dW๋ 1x(nm) ์ฐจ์์ด ๋๋ค. ์ด๋ ์๋ W์์ ์ฐจ์ ํฌ๊ธฐ๊ฐ ๋ง์ง ์์ผ๋ฉฐ, ์ด ๋๋ฌธ์ SGD๋ฅผ ๊ณ์ฐํ๊ธฐ ์ด๋ ต๋ค.
๊ทธ๋ฌ๋ฏ๋ก, Shape Convention์ ํตํด 1x(nm)์ nxm ํํ๋ก ๋ฐ๊พธ์ด์ผ ํ๋ค. ๋ฐ๋ ds/dW๋ ๋ค์๊ณผ ๊ฐ๋ค:
๊ทธ๋ผ ๊ฒฐ๋ก ์ ์ผ๋ก ds/dW๋ ๋ค์๊ณผ ๊ฐ์ด ํํ๋๋ค.
์ด๋, delta๋ฅผ ๊ตฌํ๋ฉด ์ฐ๋ฆฌ๊ฐ ์ํ๋ ๊ฐ์ ๊ตฌํ ์ ์๋ค. ๋, z = Wx + b ์ด๋ฏ๋ก dz/dW๋ x๊ฐ ๋์ด์ผ ํ๋๋ฐ, ์ ์ delta์ x๋ฅผ ๊ณ์ฐํ ๊ฒ์ ๊ฒฐ๊ณผ๋ ๋ค์๊ณผ ๊ฐ๋ค:
Why Transposes?
์ ์ ์น๊ฐ ์ผ์ด๋๋ ๊ฒ์ผ๊น?
์ฌ์ค ์ด์ ๊ณผ ๋น์ทํ๊ฒ shape convention์ผ๋ก dimension์ ๋ง์ถ๊ธฐ ์ํด์์ด๋ค. ๋ค์ ์ฌ์ง์ ๋ณด๋ฉด ์ดํด๊ฐ ๋ ๊ฒ์ด๋ค.
๋ฐ๋ผ์, Jacobian Matrix๊ฐ ์ํ์ ์ผ๋ก๋ ์ข์ง๋ง, SGD์ ์ฐ๊ธฐ ์ํด์๋ shape convention์ด ํ์์ ์ด๋ค.
2. Backpropagation
๊ทธ๋ผ ์์ ๊ณผ์ ๋ค์ ์ํํธ์จ์ด์ ์ผ๋ก ๊ตฌํํด ๋ณด์.
๋จผ์ Backpropagation ๋ฐฉ์์ higher layer์ derivatives๋ฅผ ์ฌ์ฌ์ฉํ๋ ๊ฒ์ธ๋ฐ, Computation Graph๋ฅผ ๋จผ์ ์ดํด๋ณด์.
์์ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด, ์์ผ๋ก ์์ฐจ์ ์ธ ํ๋ฅผ ๋ณด๋ด๋ ๊ฒ์ Forward Propagation, ์์ ํ๋ผ๊ณ ํ๋ค.
๊ทธ๋ ๋ค๋ฉด backpropagation์ ๋น์ฐํ ๋ค์ ํ๋ฅผ ์์ผ๋ก ๋ณด๋ด์ฃผ๋ ์ญ๋ฐฉํฅ์ด ๋๊ฒ ๊ณ , ๋ฆฌ๋ ๋ค์๊ณผ ๊ฐ์ด ๋ํ๋ผ ์ ์๋ค.
์ฌ๊ธฐ์ ๋ณด๋ด์ฃผ๋ ํ๋, gradients๋ฅผ ๋ณด๋ด์ฃผ๋ ๊ฒ์ด๋ค. ์ด๋ก ์ธํด parameter๋ค์ด ์ ๋ฐ์ดํธ๋๋ค.
๊ทธ๋ ๋ค๋ฉด ์ด ๊ณผ์ ์ ์ด๋ป๊ฒ ํจ์จ์ ์ผ๋ก ์งํํ ์ ์์์ง๊ฐ ๊ด๊ฑด์ด ๋๊ฒ ๋ค.
Backpropagation: Single Node
๋จผ์ ์ด๋ก ์ ๋ ์์ธํ๊ฒ ์๊ธฐ ์ํด single node ํํ๋ฅผ ์ดํด๋ณด์.
๋จผ์ , ์์์ ๋ด๋ ค์ค๋ ์ญ์ ํ๋ฅผ upstream gradient, node์์ ๊ณ์ฐํ ์ ์๋ gradient๋ฅผ Local gradient, ๊ณ์ฐ๋์ด ์๋๋ก ๋ด๋ ค์ง๋ gradient๋ฅผ Downstream gradient๋ผ๊ณ ํ์. ๊ทธ๋ ๋ค๋ฉด, backpropagation์ ๊ธฐ๋ณธ์ ์ผ๋ก ์ฌ์ง ์ ๋งจ ์ ๊ณต์์ ๋ง์กฑํ๊ฒ ๋๋ค. ๊ณต์์ ๋ค์๊ณผ ๊ฐ๋ค:
[Downstream Gradient] = [Upstream Gradient] * [Local Gradient]
๊ณ์ฐ ์ Chain rule์ ์ ์ฉํ์ฌ ์ฌ์ง ์ ์ผ์ชฝ ํ๋จ์ ๋ณด๋ ๊ฒ์ฒ๋ผ ํธ๋ฆฌํ๊ฒ ๊ณ์ฐํ ์ ์๋ค.
Example
๊ทธ๋ผ ๊ฐ๋จํ ์์๋ฅผ ๋ค์ด ๋ณด์.
์ด๋ฐ ์์ ๋ง์กฑํ๋ f, a, b, x, y, z๊ฐ ์๋ค๊ณ ํ์ ๋, ๊ฐ x, y, z๊ฐ f์ ์ผ๋ง๋งํผ์ ์ํฅ์ ์ฃผ๋์ง ์์๋ณด์.
๋จผ์ ๊ฐ๊ฐ์ local gradient๋ฅผ ๊ณ์ฐํด ๋๊ณ , chain rule์ ํตํด ์ญ์ ํ๋ฅผ ๊ณ์ ์์ผ๋ก ์งํ์ํค๋ฉด ํ๋์ ์ซ์๊ฐ '์ํฅ์ ์ฃผ๋ ์ ๋'๊ฐ ๋๋ค.
๊ทธ๋ฆฌ๊ณ y์ ๊ฒฝ์ฐ์๋ 2๊ฐ๋๋ก ๋๋์ด์ง๊ธฐ ๋๋ฌธ์, ์ด๋ฌํ ๊ฒฝ์ฐ์๋ ๋ํ๋ค.
Node Intuitions
๋, ๋ ธ๋๋ณ ํน์ง์ด ์๋ค:
1. +๋ ธ๋๋ upstream gradient๋ฅผ ๊ฐ๊ฐ ๋ถ๋ฐฐํ๋ค. ์์์ x์ y์๊ฒ 2๊ฐ ๊ทธ๋๋ก ์ ๋ฌ๋์์ ๋ณผ ์ ์๋ค.
2. max ๋ ธ๋๋ ํฐ ๊ฐ์์ upstream gradient๋ฅผ ์ ๋ฌํ๋ค. ์์์ 3์ด (y, z) ์ค ํฐ y์๊ฒ ์ ๋ฌ๋์์ ๋ณผ ์ ์๋ค.
3. * ๋ ธ๋๋ ์์ ํ๋ก ์จ ๊ฐ์ ๋ฐ๊พธ์ด์ ๋ฐ์ํ๋ค. *์๊ฒ ์ ๋ฌ๋ *์ 3๊ณผ max์ 2๊ฐ ์ญ์ ํ์์๋ ์๋ก ๋ค๋ฐ๋์์์ ๋ณผ ์ ์๋ค.
Efficiency
์์ ์ค๋ช ํ๋ delta์ ๋ฑ์ฅ์ฒ๋ผ, ๋น์ฐํ ์ํํธ์จ์ด์ ์ผ๋ก ๊ณ์ฐ ์์๋ ํ๋ก๊ทธ๋จ ์๋์ ํจ์จ์ฑ์ ์ํด ๊ฐ์ ๊ณ์ฐ์ ํผํด์ผ ํ๋ค. ๊ทธ๋ฌ๋ฏ๋ก, ๊ณตํต๋ ๋ถ๋ถ์ ๋ํ ๊ณ์ฐ์ ์ต๋ํ ์ค์ผ ์ ์๋๋ก ๊ณตํต๋ ๋ถ๋ถ์ ์ ํ์ ํ๋ค.
3. Pytorch code examples
์ฌ์ค ์์ ๊ณผ์ ๋ค์ pytorch๋ tensorflow๋ฑ์ ํ๋ ์์ํฌ์์ ์ฝ๋๋ก ๋ชจ๋ ์ ๊ณตํด ์ฃผ๊ธฐ ๋๋ฌธ์, ์ฝ๋๋ง ์ ์ฌ์ ์์ ์ ๋ง๊ฒ ์ฐ๋ฉด ๋๋ค. ์์๋ก ๋ค์ ์ฝ๋๋ฅผ ๋ณด๋ฉด,
์ง๊ด์ ์ผ๋ก forward๋ ์์ ํ, backward๋ ์ญ์ ํ๋ฅผ ๋ปํ๋ ๊ฒ์ ์ ์ ์๋ค.
์ด๋ ๊ฒ, NeuralNet๊ณผ Backpropagation์ ๋ํด ์์๋ณด์๋ค. ์ ์๋ ์๊ณ ์๋ ๋ด์ฉ์ด๊ธด ํ์ง๋ง, ์ด๋ ๊ฒ ์์ธํ๊ฒ ์์ผ๋ก ๊ณ์ฐํ๋ ๊ฒ๋ถํฐ ์ํํธ์จ์ด์ ์ผ๋ก ๋ค๋ฃจ๋ ๋ฒ๊น์ง ๋ฐฐ์ฐ๊ฒ ๋์ด ์ข์๋ค. ์ค์ต๋ ํด๋ณด๊ณ ์ถ์๋ฐ.. ์ฐ์ ๊ฐ์๋ฅผ ๋ค ๋ฃ๋ ๊ฒ์ด ๋จผ์ ์ธ ๊ฒ ๊ฐ์์ ์์ผ๋ก๋ ๊ฐ์๋ง ๊ณ์ ์ ๋ฆฌํ ์๊ฐ์ด๋ค.
'๐ ์คํฐ๋ > CS224N' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[CS224N] 6, 7, 8. RNN, LSTM, Seq2seq, Attention & Transformers (1) | 2023.12.30 |
---|---|
[CS224N] 5. Language Models and Recurrent Neural Networks (2) | 2023.11.20 |
[CS224N] 4. Syntactic Structure and Dependency Parsing (0) | 2023.11.18 |
[CS224N] 2. Neural Classifiers (0) | 2023.08.02 |
[CS224N] 1. Introduction and Word Vectors (0) | 2023.07.24 |