๐Ÿ“š ์Šคํ„ฐ๋””/NLP

[NLP-์Šคํ„ฐ๋””] RNN์— ๊ด€ํ•˜์—ฌ

์žฅ์˜์ค€ 2023. 6. 29. 03:27

์š”์ฆ˜ NLP์™€ ์ „๋ฐ˜์ ์ธ ๋”ฅ๋Ÿฌ๋‹์— ๋Œ€ํ•œ ๊ณต๋ถ€๋ฅผ ํ•˜๋Š” ์ค‘์ด๋‹ค.

Transformer ๋ชจ๋ธ์ด ๋„ˆ๋ฌด ์œ ๋ช…ํ•ด์„œ, ์–ด์ฉŒ๋‹ค ๋ณด๋‹ˆ Transformer์˜ attention ๋ฉ”์ปค๋‹ˆ์ฆ˜์ด ์‚ฌ์šฉ๋œ ๋ชจ๋ธ๋“ค๋ถ€ํ„ฐ ๊ณต๋ถ€ํ•˜๊ฒŒ ๋๋Š”๋ฐ, ๋…ผ๋ฌธ์—์„œ ์ด์ „ ๋ชจ๋ธ๋“ค์— ๋Œ€ํ•œ ์ง€์‹์ด ๋งŽ์ด ์“ฐ์ด๋Š” ๊ฒƒ์„ ๋ณด๊ณ  ์•„์˜ˆ ์˜ค๋ž˜์ „ ๋ชจ๋ธ๋ถ€ํ„ฐ ๊ณต๋ถ€ํ•ด๋ณด๊ณ ์ž ํ•œ๋‹ค.

(์‚ฌ์‹ค hidden state๊ณผ back propagation ๋“ฑ์— ๊ด€ํ•œ ์ •ํ™•ํ•œ ์ง€์‹์ด ์—†์–ด์„œ, ์ด ๋ถ€๋ถ„์— ๋Œ€ํ•œ ๊ฐœ๋…์„ ์žก๊ณ  ๊ฐ€์•ผ๊ฒ ๋‹ค๊ณ  ์ƒ๊ฐํ–ˆ๋‹ค.)

๊ทธ๋ฆฌํ•˜์—ฌ ์ด๋ฒˆ์—๋Š” RNN์˜ ๊ฐœ๋…์„ ์ง‘์ค‘ํ•ด์„œ ๋‹ค๋ค„๋ณด๊ณ ์ž ํ•œ๋‹ค.

์‚ฌ์‹ค LSTM ๋…ผ๋ฌธ์„ ๋ดค๋Š”๋ฐ ์ •๋ง ๋ง๋„ ์•ˆ๋˜๋Š” ์ˆ˜์‹๋“ค์ด ๋งŽ์•˜๊ณ , ์ดํ•ดํ•˜๊ธฐ๊ฐ€ ๋„ˆ์–ด๋ฌด ์–ด๋ ค์›Œ์„œ ๊ณต๋ถ€ํ•ด์•ผ ๊ฒ ๋‹ค๊ณ  ์ƒ๊ฐํ–ˆ๋‹ค...

์ฐธ๊ณ :


1. RNN์˜ ๋“ฑ์žฅ ๋ฐฐ๊ฒฝ

๊ธฐ์กด์˜ Neural Network๋Š” ์ด์ „์— ์ผ์–ด๋‚œ ์‚ฌ๊ฑด์„ ๋ฐ”ํƒ•์œผ๋กœ ์ดํ›„์— ์ผ์–ด๋‚˜๋Š” ์‚ฌ๊ฑด์— ๋Œ€ํ•ด ์˜ˆ์ธกํ•˜์ง€ ๋ชปํ•œ๋‹ค. ์€๋‹‰์ธต(hidden layer)์—์„œ ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋ฅผ ์ง€๋‚œ ๊ฐ’์€ ๋ฌด์กฐ๊ฑด์ ์œผ๋กœ ์ถœ๋ ฅ์ธต(output layer) ๋ฐฉํ–ฅ์œผ๋กœ ํ–ฅํ•˜๋Š” Feed-Forward์˜ ํŠน์ง•์„ ์ง€๋‹Œ๋‹ค. 

์ด์™€ ๋‹ค๋ฅด๊ฒŒ RNN์€ hidden layer์˜ ๋…ธ๋“œ์—์„œ ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋ฅผ ํ†ตํ•ด ๋‚˜์˜จ ๊ฒฐ๊ณผ๊ฐ’์„ ์ถœ๋ ฅ์ธต ๋ฐฉํ–ฅ์œผ๋กœ ๋ณด๋‚ด๋ฉด์„œ, ๋‹ค์‹œ ์€๋‹‰์ธต ๋…ธ๋“œ์˜ ๋‹ค์Œ ๊ณ„์‚ฐ์˜ ์ž…๋ ฅ์œผ๋กœ ๊ฐ€์ง€๋Š” ํŠน์ง•์„ ๊ฐ€์ง„๋‹ค. ์ด์™€ ๊ฐ™์€ ๊ตฌ์กฐ๋Š” ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ (Sequence Data)๋ฅผ ๋‹ค๋ฃจ๊ธฐ์— ์ ํ•ฉํ•œ ๊ตฌ์กฐ์ด๋‹ค.

2. RNN vs. ANN

์œ„์—์„œ ์„ค๋ช…ํ–ˆ๋“ฏ์ด, RNN์€ ์ˆœํ™˜ ์‹ ๊ฒฝ๋ง์œผ๋กœ์จ ์ธ์ ‘ํ•œ ๋‹ค์Œ ๋…ธ๋“œ๋กœ๋งŒ ๊ณ„์‚ฐ๋˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ ์ž๊ธฐ ์ž์‹ ์—๊ฒŒ ํ˜น์€ ๊ทธ ์ „ ๋…ธ๋“œ๋กœ ๊ณ„์‚ฐ๋˜๋Š” ๊ตฌ์กฐ๋กœ ์ด๋ฃจ์–ด์ง„ Neural Network์ด๋‹ค. ๊ธฐ์กด์˜ ์ˆœ๋ฐฉํ–ฅ ์‹ ๊ฒฝ๋ง (Feed-Forward Network)์™€ ์•„๋ž˜ ๊ทธ๋ฆผ์„ ํ†ตํ•ด ๋น„๊ตํ•ด๋ณด์ž.

(์•„ ๊ทธ๋ฆฌ๊ณ  Feed-Forward Network๋ฅผ ANN์ด๋ผ๊ณ  ๋งŽ์ด๋“ค ๋ถ€๋ฅด๋”๋ผ.)

์ถœ์ฒ˜: https://dbrang.tistory.com/1537

์™ผ์ชฝ ๊ทธ๋ฆผ์—์„œ ๋ณด๋“ฏ์ด, ์ด๋ ‡๊ฒŒ ์Šค์Šค๋กœ ๋Œ์•„๊ฐ€๋Š” ํ™”์‚ดํ‘œ๋ฅผ ๊ด€์ฐฐํ•  ์ˆ˜ ์žˆ๋‹ค. ์ด๋Š” ๋‹ค์Œ ๊ทธ๋ฆผ์ฒ˜๋Ÿผ ๊ฐ„์†Œํ™”ํ•ด์„œ ํ‘œํ˜„ํ•  ์ˆ˜๋„ ์žˆ๋‹ค.

์ถœ์ฒ˜: https://wikidocs.net/60690

์œ„ ๊ทธ๋ฆผ์—์„œ ๋ณด๋“ฏ์ด, ๋งจ ๋งˆ์ง€๋ง‰ cell (์ดˆ๋ก์ƒ‰ ์ƒ์ž) h_t๋Š” ์ด์ „๊นŒ์ง€์˜ ๋ชจ๋“  ์ •๋ณด๋“ค์„ ํ•จ์ถ•์ ์œผ๋กœ ๋‹ด๊ณ  ์žˆ์„ ๊ฒƒ์ด๋‹ค.

๊ฒฐ๊ตญ RNN์—์„œ ๋‹ค์Œ ์‹œ์ ์˜ ์ •๋ณด๋Š” ์ „ ์‹œ์ ์˜ ์ •๋ณด๋งŒ์ด ์•„๋‹ˆ๋ผ ์ด์ „๊นŒ์ง€์˜ ์ •๋ณด๋“ค์„ ๋ชจ๋‘ ๊ฐ€์ง€๊ณ  ์žˆ์„ ๊ฒƒ์ด๋‹ค.

๊ทธ๋ฆฌ๊ณ  ์ด์ฒ˜๋Ÿผ ์ •๋ณด๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ๋Š” ๊ฒƒ์„ cell์ด๋ผ๊ณ  ํ•˜๋ฉฐ ํ˜„์žฌ cell์ด ๊ฐ€์ง€๊ณ  ์žˆ๋Š” ์ •๋ณด, ์ฆ‰ ๋‹ค์Œ ์‹œ์ ์œผ๋กœ ๋„˜๊ฒจ์ค„ ์ •๋ณด๋ฅผ hidden state๋ผ๊ณ  ํ•œ๋‹ค. 

RNN์˜ cell๋“ค์€ ๋ชจ๋‘ ๊ฐ™์€ ๊ฐ€์ค‘์น˜ W๋ฅผ ๊ณต์œ ํ•œ๋‹ค๋Š” ํŠน์„ฑ์ด ์žˆ๋Š”๋ฐ, ์•„๋ž˜ ๊ทธ๋ฆผ์—์„œ ํ•ด๋‹น ๊ฐœ๋…์„ ์ž˜ ์„ค๋ช…ํ•ด์ค€๋‹ค.

์ถœ์ฒ˜: cs231n ๊ฐ•์˜๋…ธํŠธ

์ฐธ๊ณ ) ์œ„ ๊ทธ๋ฆผ๋“ค์€ ํ•˜๋‚˜์˜ cell๋งŒ์„ ๊ฐ€์ง€๊ณ  ์žˆ๋Š”๋ฐ, ์•„๋ž˜ ๊ทธ๋ฆผ์ฒ˜๋Ÿผ cell๋“ค์„ ๋งŽ์ด ์Œ“์•„ ์˜ฌ๋ ค์„œ ๋” ๊นŠ์€ ๊ตฌ์กฐ๋ฅผ ๋งŒ๋“ค ์ˆ˜๋„ ์žˆ๋‹ค.

์ถœ์ฒ˜: https://wikidocs.net/60690

3. RNN์˜ BPTT

๊ธฐ์กด์˜ back propagation์€ ๋‹ค์Œ ๊ฐ•์˜๋ฅผ ์ฐธ๊ณ ํ•˜๋ฉด ๋งค์šฐ ์ž˜ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋‹ค: https://youtu.be/1Q_etC_GHHk

๋‹จ์ผ ํผ์…‰ํŠธ๋ก 

๋‹จ์ผ ํผ์…‰ํŠธ๋ก ์—์„œ๋Š” ๊ฒฐ๊ด๊ฐ’์„ ์–ป์œผ๋ฉด ์‹ค์ œ ๊ฐ’๊ณผ์˜ ๋น„๊ต๋ฅผ ํ†ตํ•ด ์˜ค์ฐจ๋ฅผ ๊ตฌํ•˜๊ณ , ์ด๋ฅผ ํ† ๋Œ€๋กœ ์•ž ๋‹จ๊ณ„์—์„œ ์ •ํ•œ ๊ฐ€์ค‘์น˜๋ฅผ ์กฐ์ •ํ•œ๋‹ค.

์ด๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๊ทธ๋ฆผ์œผ๋กœ ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ๋‹ค.

๋‹ค์ธต ํผ์…‰ํŠธ๋ก 

๋งˆ์ฐฌ๊ฐ€์ง€๋กœ, ๋‹ค์ธต ํผ์…‰ํŠธ๋ก  ์—ญ์‹œ ๊ฒฐ๊ด๊ฐ’์˜ ์˜ค์ฐจ๋ฅผ ๊ตฌํ•ด ์ด๋ฅผ ํ† ๋Œ€๋กœ ํ•˜๋‚˜ ์•ž์„  ๊ฐ€์ค‘์น˜๋ฅผ ์ฐจ๋ก€๋กœ ๊ฑฐ์Šฌ๋Ÿฌ ์˜ฌ๋ผ๊ฐ€๋ฉฐ ์กฐ์ •ํ•ด ๊ฐ„๋‹ค.

  1. output layer์˜ ๊ฐ€์ค‘์น˜ ์ˆ˜์ •
  2. hidden layer์˜ ๊ฐ€์ค‘์น˜ ์ˆ˜์ •

๊ทธ๋Ÿฌ๋‹ค ๋ณด๋‹ˆ ์ตœ์ ํ™”์˜ ๊ณ„์‚ฐ ๋ฐฉํ–ฅ์ด ์ถœ๋ ฅ์ธต์—์„œ ์‹œ์ž‘ํ•ด ์•ž์œผ๋กœ ์ง„ํ–‰๋œ๋‹ค.

๊ทธ๋ž˜์„œ ๋‹ค์ธต ํผ์…‰ํŠธ๋ก ์—์„œ์˜ ์ตœ์ ํ™” ๊ณผ์ •์„ ์˜ค์ฐจ ์—ญ์ „ํŒŒ(back propagation)์ด๋ผ ๋ถ€๋ฅธ๋‹ค.

๊ทธ๋ฆผ์—์„œ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๊ณผ์ •์„ ๊ฑฐ์นœ๋‹ค:

  1. ์ž„์˜์˜ ์ดˆ๊ธฐ ๊ฐ€์ค‘์น˜(W)๋ฅผ ์ค€ ๋’ค ๊ฒฐ๊ณผ(y_out)์„ ๊ณ„์‚ฐํ•œ๋‹ค.
  2. ๊ณ„์‚ฐ ๊ฒฐ๊ณผ์™€ ์šฐ๋ฆฌ๊ฐ€ ์›ํ•˜๋Š” ๊ฐ’ ์‚ฌ์ด์˜ ์˜ค์ฐจ๋ฅผ ๊ตฌํ•œ๋‹ค.
  3. gradient descent๋ฅผ ์ด์šฉํ•ด ๋ฐ”๋กœ ์•ž ๊ฐ€์ค‘์น˜๋ฅผ ์˜ค์ฐจ๊ฐ€ ์ž‘์•„์ง€๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ์—…๋ฐ์ดํŠธํ•œ๋‹ค.
  4. ์œ„ ๊ณผ์ •์„ ๋”์ด์ƒ ์˜ค์ฐจ๊ฐ€ ์ค„์–ด๋“ค์ง€ ์•Š์„ ๋•Œ๊นŒ์ง€ ๋ฐ˜๋ณตํ•œ๋‹ค.

๋‚˜๋Š” ์—ฌ๊ธฐ์„œ gradient descent๋กœ ์–ด๋–ป๊ฒŒ ์˜ค์ฐจ๊ฐ€ ์ž‘์•„์ง€๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ์—…๋ฐ์ดํŠธํ•˜์ง€ ?? ๋ผ๊ณ  ์ƒ๊ฐํ–ˆ๋Š”๋ฐ, ์ด๊ฒƒ์˜ ์˜๋ฏธ๋Š” ๋ฏธ๋ถ„ ๊ฐ’์ด 0์— ๊ฐ€๊นŒ์›Œ์ง€๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ๋‚˜์•„๊ฐ„๋‹ค๋Š” ๋ง์ด์—ˆ๋‹ค.

์ฆ‰, '๊ธฐ์šธ๊ธฐ๊ฐ€ 0์ด ๋˜๋Š” ๋ฐฉํ–ฅ'์œผ๋กœ ๋‚˜์•„๊ฐ€์•ผ ํ•˜๋Š”๋ฐ, ์ด ๋ง์€ ๊ฐ€์ค‘์น˜์—์„œ ๊ธฐ์šธ๊ธฐ๋ฅผ ๋บ์„ ๋•Œ ๊ฐ€์ค‘์น˜์˜ ๋ณ€ํ™”๊ฐ€ ์ „ํ˜€ ์—†๋Š” ์ƒํƒœ๋ฅผ ๋งํ•œ๋‹ค.

๋”ฐ๋ผ์„œ ์˜ค์ฐจ ์—ญ์ „ํŒŒ๋ฅผ ๋‹ค๋ฅธ ๋ฐฉ์‹์œผ๋กœ ํ‘œํ˜„ํ•˜๋ฉด ๊ฐ€์ค‘์น˜์—์„œ ๊ธฐ์šธ๊ธฐ๋ฅผ ๋นผ๋„ ๊ฐ’์˜ ๋ณ€ํ™”๊ฐ€ ์—†์„ ๋•Œ๊นŒ์ง€ ๊ณ„์†ํ•ด์„œ ๊ฐ€์ค‘์น˜ ์ˆ˜์ • ์ž‘์—…์„ ๋ฐ˜๋ณตํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

BPTT

RNN์—์„œ๋Š” ๋™์ผํ•œ ํžˆ๋“  ๋ ˆ์ด์–ด๊ฐ€ ๋ฐ˜๋ณต๋˜์–ด ๊ฐ€์ค‘์น˜ ๋งคํŠธ๋ฆญ์Šค๋ฅผ ๊ณต์œ ํ•˜๋Š” ๊ตฌ์กฐ์ด๊ธฐ ๋•Œ๋ฌธ์—, gradient๋ฅผ ๋„˜๊ฒจ์ค„ ๋•Œ ํ˜„์žฌ ์‹œ๊ฐ„ ๋‹จ๊ณ„๋งŒ์ด ์•„๋‹ˆ๋ผ ์ด์ „ ์‹œ๊ฐ„์˜ ๋‹จ๊ณ„๋ฅผ ๊ณ ๋ คํ•ด์•ผ ํ•œ๋‹ค.

์ด๋Ÿฌํ•œ ์—ญ์ „ํŒŒ ๋ฐฉ์‹์„ BPPT(BackPropagation Through Time)๋ผ๊ณ  ํ•œ๋‹ค.

RNN์—์„œ ์ „์ฒด loss์˜ ์ดํ•ฉ์€ ๊ฐ ํƒ€์ž„ ์Šคํ…์—์„œ์˜ loss์˜ ์ดํ•ฉ์œผ๋กœ ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ๋Š”๋ฐ, ๊ทธ๋ฆผ์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค:

์ถœ์ฒ˜: cs231n ๊ฐ•์˜๋…ธํŠธ

RNN์—์„œ๋Š” ์ „์ฒด๊ฐ€ ๊ฐ™์€ ๊ฐ€์ค‘์น˜ W๋ฅผ ๊ณต์œ ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๊ฐ ํƒ€์ž„ ์Šคํ…์˜ gradient๋ฅผ ๋”ํ•ด์ฃผ์–ด ํ•™์Šต์‹œํ‚ฌ ์ˆ˜ ์žˆ๋‹ค.

๊ทธ๋ฆฌ๊ณ  ์˜ˆ๋ฅผ ๋“ค์–ด t=3 ํƒ€์ž… ์Šคํ…์—์„œ ๋‚˜์˜จ ๊ฒฐ๊ณผ๋Š” t: 0~2๊นŒ์ง€์˜ ๊ฒฐ๊ณผ์— ์˜์กดํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๊ณผ๊ฑฐ ์‹œ์ ๊นŒ์ง€ ์—ญ์ „ํŒŒํ•ด์ฃผ๋Š” ๊ฒƒ์œผ๋กœ ๋ณผ ์ˆ˜ ์žˆ๋‹ค.

์ด๋Ÿฌํ•œ ๋ฐฉ์‹์€ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ๋ฏธ๋ถ„์˜ chain rule๋กœ ๋ฐœ์ƒํ•œ๋‹ค.

4. RNN์˜ ํ•œ๊ณ„

์ด๋ ‡๊ฒŒ ์–ด๋ ต๊ฒŒ ๊ณ ์•ˆํ•ด๋‚ธ RNN์ด๊ณ , ๋‹ค์–‘ํ•œ ์‚ฌ์šฉ ๋ถ„์•ผ๊ฐ€ ์žˆ์ง€๋งŒ, ์ด๋Ÿฐ RNN ๋˜ํ•œ ํ•œ๊ณ„๊ฐ€ ์žˆ์—ˆ๋‹ค.

๊ทธ๊ฒƒ์€ ๋ฐ”๋กœ ์žฅ๊ธฐ ์˜์กด์„ฑ ๋ฌธ์ œ(long-term dependecies)์ด๋‹ค.

RNN์€ ๋น„๊ต์  ์งง์€ ์‹œํ€€์Šค์—์„œ๋Š” ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ณด์ด๋‚˜, ํƒ€์ž„ ์Šคํ…์ด ์ปค์ง„๋‹ค๋ฉด ์•ž ์ชฝ์— ์žˆ๋Š” ์ •๋ณด๋“ค์ด ๋’ค์ชฝ๊นŒ์ง€ ์ถฉ๋ถ„ํžˆ ์ „๋‹ฌ๋˜์ง€ ๋ชปํ•œ๋‹ค.

์ด๋Š” gradient์˜ ์ „๋‹ฌ๋˜๋Š” ๊ณผ์ •๊ณผ ์—ฐ๊ด€์ด ์žˆ๋‹ค. RNN์€ ์ฃผ๋กœ tanh์„ activation function์‚ฌ์šฉํ•˜๋Š”๋ฐ ์ด๋Š” gradient vanishing ๋ฌธ์ œ๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค.

์ฆ‰, ํ˜„ ์‹œ์  t์— ๋Œ€ํ•œ loss๋ฅผ ํ•™์Šตํ•˜๊ธฐ ์œ„ํ•ด ์ด์ „์˜ ์ •๋ณด๋“ค๋กœ๊นŒ์ง€ gradient๋ฅผ ์ „๋‹ฌํ•ด์•ผ ํ•˜๋Š”๋ฐ ํƒ€์ž„ ์Šคํ…์ด ํฌ๋‹ค๋ฉด ์•ž์ชฝ๊นŒ์ง€ ์ถฉ๋ถ„ํžˆ ์ „๋‹ฌํ•˜์ง€ ๋ชปํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ๊ทธ๋ž˜์„œ t์‹œ์ ์— ์˜ค์ฐจ์— ๋Œ€ํ•ด ์•ž์ชฝ์— ์žˆ๋Š” ์ •๋ณด๋“ค์ด ํ™œ์šฉ๋  ์ˆ˜ ์—†๋Š” ๊ฒƒ์ด๋‹ค.

์ด๋Ÿฌํ•œ ๋ฌธ์ œ์ ์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ํ™œ์„ฑํ™”ํ•จ์ˆ˜๋ฅผ Relu ๋“ฑ์œผ๋กœ ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•์ด ์žˆ์œผ๋ฉฐ RNN์„ ๊ฐœ์„ ํ•œ LSTM, GRU ๋ชจ๋ธ์ด ๋‚˜์™”๋‹ค.

ํ•ด๋‹น ๋ชจ๋ธ๋“ค์€ ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ ์„น์…˜์—์„œ ๋…ผ๋ฌธ์„ ์ •๋ฆฌํ•˜๋ฉฐ ๊ฐœ๋…๋„ ํ•จ๊ป˜ ์ •๋ฆฌํ•ด๋ณผ ์˜ˆ์ •์ด๋‹ค.


์ด๋ ‡๊ฒŒ ์˜ค๋Š˜์€ RNN์— ๊ด€ํ•ด ์•Œ์•„๋ณด์•˜๋‹ค.

์›Œ๋‚™์— ์“ฐ์ด๋Š” ๋ถ„์•ผ๊ฐ€ ๋งŽ์•„์„œ ๊ตฌ์กฐ๋„ ์—„์ฒญ ๋ณต์žกํ•  ๊ฒƒ ๊ฐ™์•˜์ง€๋งŒ, ์ƒ๊ฐ๋ณด๋‹ค๋Š” ๋ณต์žกํ•˜์ง€ ์•Š์•˜๋˜ ๊ฒƒ ๊ฐ™๋‹ค.

๋‹ค์Œ์˜ ๋‚ด์šฉ๋“ค๋งŒ ๊ธฐ์–ตํ•ด ๋†“์œผ๋ฉด ์ข‹์„ ๊ฒƒ ๊ฐ™๋‹ค:

  • RNN์€ ์ˆœํ™˜ ์‹ ๊ฒฝ๋ง์œผ๋กœ์จ ์ธ์ ‘ํ•œ ๋‹ค์Œ ๋…ธ๋“œ๋กœ๋งŒ ๊ณ„์‚ฐ๋˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ ์ž๊ธฐ ์ž์‹ ์—๊ฒŒ ํ˜น์€ ๊ทธ ์ „ ๋…ธ๋“œ๋กœ ๊ณ„์‚ฐ๋˜๋Š” ๊ตฌ์กฐ๋กœ ์ด๋ฃจ์–ด์ง„ Neural Network์ด๋‹ค.
  • RNN์˜ ๊ฐ„์†Œํ™” ์ด๋ฏธ์ง€

์ถœ์ฒ˜: https://wikidocs.net/60690

  • RNN์˜ back propagation์€ ์‹œ๊ฐ„์— ๋”ฐ๋ผ ์ง„ํ–‰๋˜์–ด BPTT๋ผ๊ณ  ๋ถˆ๋ฆฌ๋Š”๋ฐ, RNN์—์„œ๋Š” ์ „์ฒด๊ฐ€ ๋ชจ๋‘ ๊ฐ™์€ ๊ฐ€์ค‘์น˜๋ฅผ ๊ณต์œ ํ•˜๋ฏ€๋กœ ๊ฐ ํƒ€์ž„ ์Šคํ…์˜ gradient๋ฅผ ๋”ํ•ด์ฃผ์–ด ํ•™์Šต์‹œํ‚ฌ ์ˆ˜ ์žˆ๋‹ค.
  • RNN์€ ์žฅ๊ธฐ ์˜์กด์„ฑ ๋ฌธ์ œ๊ฐ€ ์žˆ๋Š”๋ฐ, ์ด๋Š” ํ™œ์„ฑ ํ•จ์ˆ˜๋ฅผ tanh ํ•จ์ˆ˜๋กœ ์‚ฌ์šฉํ•˜๋ฉด์„œ gradient๊ฐ€ ์†Œ์‹ค๋˜๊ฑฐ๋‚˜ ํญ๋ฐœํ•˜์—ฌ ์ƒ๊ธฐ๋Š” ๋ฌธ์ œ์ด๋‹ค.

 

 

๋Œ“๊ธ€์ˆ˜0