4๋ฒ์งธ ๊ฐ์๋ ๋ฌธ์ฅ์ ๋ํ ๋ถ์ ๋ฐฉ๋ฒ์ ๋ค๋ฃฌ๋ค. ํนํ Dependency Parsing ๊ธฐ๋ฒ์ ๋ํด ์ค๋ช ํ๋๋ฐ, ๊ทธ๋์์ ๋ฐฉ์๋ค๊ณผ ํ๋์ neural dependency parsing ๋ฐฉ์์ ๋ํด ์๊ฐํ๋ค.
1. Two views of linguistic structure
๋ฌธ์ฅ์ ๊ตฌ์กฐ๋ฅผ ํ์ ํ๋ ๊ฒ์ ๋ ๊ฐ์ง๊ฐ ์๋๋ฐ, ํ๋๋ Constituency parsing, ๋ค๋ฅธ ํ๋๋ Dependency parsing์ด๋ค.
๊ฐ๋จํ๊ฒ Consitituency parsing์ ๋ฌธ์ฅ์ ๊ตฌ์ฑ์์๋ฅผ ํตํด ๋ฌธ์ฅ ๊ตฌ์กฐ๋ฅผ ๋ถ์ํ๋ ๋ฐฉ๋ฒ์ด๊ณ , Dependency parsing์ ๋จ์ด ๊ฐ ์์กด ๊ด๊ณ๋ฅผ ํตํด ๊ตฌ์กฐ๋ฅผ ๋ถ์ํ๋ ๋ฐฉ๋ฒ์ด๋ค. ์กฐ๊ธ ๋ ๊น๊ฒ ๋ค์ด๊ฐ ๋ณด์.
1. Constituency Parsing: Context-Free-Grammars(CFGs)
Context free grammars๋, ์์ ์ ์์ดํ์์์ ๋ฌธ์ฅ ๋ถ์ํ ๋ ๋จ์ด ๋ฐ์๋ค๊ฐ ํ์ฌ๋ฅผ ์จ๋๋ ๋ฐฉ์์ ์๊ฐํ๋ฉด ํธํ๋ค.
์๋์ฒ๋ผ ๋จ์ด๋ก ์์ํ๋ฉด, the-Det, cat-N, cuddly-Adj, by-P, door-N ์ด ๋๋ค.
์ด ๋จ์ด๋ค์ ์ ๋ก ๋ฐ๊พธ๋ฉด the cuddly cat - Noun phrase, by the door - Preposition phrase๊ฐ ๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ด๋ฐ ์ ์ ๊ฒฐํฉ๋์ด ๋ ํฐ ์ ์ ๋ง๋ค ์๋ ์๋ค.
๊ทธ๋ฌ๋ ์ด ๋ฐฉ๋ฒ์ ๋ฌธ์ฅ ๊ตฌ์กฐ๋ฅผ ์ดํดํ๊ธฐ ์ํด ๋ถ๋ช ํ๊ณ๊ฐ ์๋ค. ๋ฐ๋ก ์๋ฏธ ๊ตฌ์กฐ๋ฅผ ํ์ ํ์ง ๋ชปํ๋ค๊ฑฐ๋, ๋ค๋ฅธ ๋จ์ด์์ ๊ด๊ณ๋ฅผ ์ ์ ์๋ค๋ ์ ์ธ๋ฐ, ๊ฐ๋ น ๋ฌธ์ฅ์์ ๋๋ช ์ฌ๊ฐ ํ ๋ช ์ฌ๋ฅผ ๋ํ๋ด๋ ค๋ ๊ฒฝ์ฐ๊ฐ ์ด์ ํด๋นํ๋ค.
์ด๋ฅผ ์ํด Dependency Parsing์ ์ฌ์ฉํ๋ค.
2. Dependency Parsing
Dependency Parsing์ ๊ฐ์ฅ ํฐ ์ฅ์ ์ ์ด๊ฒ์ด ์ด๋ค ๋จ์ด๊ฐ ๋ค๋ฅธ ์ด๋ค ๋จ์ด์ ์์กดํ๋์ง ๋ณด์ฌ์ค๋ค๋ ์ ์ด๋ค.
์์๋ก, ๋ค์ ๋ฌธ์ฅ์ ์๊ฐํด ๋ณด์:
Bills on ports and immigration were submitted by Senator Brownboack, Republican of Kansas.
์ด ๋ฌธ์ฅ์ dependency๋ก ๋ํ๋ด๋ฉด, ๋ค์๊ณผ ๊ฐ์ด tree ํํ๋ก ๊ทธ๋ ค๋ณผ ์ ์๋ค.
๊ฐ์์์ ์ค๋ช ํ ๋ช ๊ฐ์ง dependency structure์ ๋ํ๋ด๋ ๊ท์น์ ๋ณด๋ฉด ๋ค์๊ณผ ๊ฐ๋ค:
- Pseudo Element์ธ ROOT๋ฅผ ์ถ๊ฐํ์ฌ ๋ชจ๋ ์ฑ๋ถ์ ์ต์ข head๊ฐ ROOT๊ฐ ๋๋๋ก ํ๋ค.
- ๋ชจ๋ ์ฑ๋ถ์ ๋จ ํ๋์ head๋ง ๊ฐ์ง๋ค. ๊ทธ๋ฌ๋ ํ head๋ ๋ง์ dependency structure์ ๊ฐ์ง ์ ์๋ค.
- ๊ฐ์์์๋ ๋ชจ๋ ์ ์น์ฌ๋ฅผ case๋ก ๊ฐ์ฃผํ๋ค. ์ด๋ ๊ฐ์ด ์ค๋ ๋ช ์ฌ์ dependent๋ก ํฌํจํด ๋ฒ๋ฆฌ๋ ๊ฒ์ด๋ค. ์์๋ก, ๊ทธ๋ฆผ์์ Brownback์ dependency ์ค ํ๋๋ก by๋ฅผ ๋ณผ ์ ์๋ค.
- ํ์ดํ๋ head์์ dependency๋ก ๊ทธ๋ฆฐ๋ค. ๋ฌผ๋ก ์ด๊ฑด ๊ทธ๋ฆฌ๋ ์ฌ๋ ๋ง์์ด์ง๋ง, ๊ฐ์์์๋ ํต์ผ์ฑ์ ์ํด์ ์ด๋ฐ ์์๋ก ๊ทธ๋ ธ๋ค๊ณ ํ๋ค.
์ฐธ๊ณ ๋ก ์ ๊ทธ๋ฆผ์์ ์ ์์ ์ฐ์ฌ์๋ ๊ฑด ๋ ๋จ์ด ๊ฐ์ ๊ด๊ณ๋ฅผ ๋ํ๋ด๋ ๊ฒ์ด๋ค.
Dependency Conditioning Preferences
๊ทธ๋ ๋ค๋ฉด dependency parsing์ sources of information์ผ๋ก๋ ๋ฌด์์ด ์์๊น?
- Bilexical effects: ๋ ๋จ์ด๊ฐ์ ์๋ฏธ ๊ด๊ณ ์ ๋ณด์ด๋ค.
- Dependency distance: ๋ณดํต์ dependency๋ค์ ์ธ์ ํ ๋ ๋จ์ด ์ฌ์ด์์ ์ผ์ด๋๋ค๊ณ ํ๋ค.
- Intervening material: ๋ณดํต dependency ๊ด๊ณ๋ ๋์ฌ๋ ๊ตฌ๋์ ์ ๋์ด์ ์๊ธฐ์ง ์๋๋ค๊ณ ํ๋ค.
- Valency of Heads: ์ด๋ Head ๊ฐ ๋ฌด์์ด๋์ ๋ฐ๋ผ์ ๊ทธ๊ฒ์ด ๊ฐ๋ dependents (์ข ๋ฅ์ ๋ฐฉํฅ - ์ผ, ์ค)์ ๋ํ ํจํด์ด ์ด๋ ์ ๋ ์กด์ฌํ๋ค๋ ๊ฒ์ด๋ค. ์์๋ก, ๊ด์ฌ the๋ dependent ๊ฐ ์๋ ๋ฐ๋ฉด, ๋์ฌ๋ ๋ง์ dependents๋ฅผ ๊ฐ๋๋ค. ์์ด์์ Noun ๋ ๋ง์ dependents ๋ฅผ ๊ฐ๋๋ฐ, ํ์ฉ์ฌ dependent๋ (์ฃผ๋ก) ์ผ์ชฝ์ ์์นํ๊ณ , ์ ์น์ฌ dependent ๋ ์ค๋ฅธ์ชฝ์ ์์นํ๋ค.
Projectivity
projective parse์ ์ ์์ ์๊ฑฐํ๋ฉด ๋ค์๊ณผ ๊ฐ์ ์์น๋ค์ด ์ง์ผ์ ธ์ผ ํ๋ค.
- dependency arc๋ค์ด ๋์ด๋ ๋, ๊ฐ arc๋ค์ด ์๋ก๋ฅผ ๊ต์ฐจํ๋ฉด ์ ๋๋ค.
- CFG์ ํด๋นํ๋ dependency๋ค์ ๋ฐ๋์ projective ํด์ผ ํ๋ค. ์ฆ, ๋ฐ๋์ ํ๋์ ROOT๊ฐ ์์ด์ผ ํ๋ค.
๋๋ถ๋ถ์ ๋ฌธ์ฅ ๊ตฌ์กฐ๋ค์ด ์ด๋ ๊ฒ projective ํ์ง๋ง, ๊ฐ๋ ์ฃผ์ด์ ๋์ฌ์ ์์น๊ฐ ๋ณํ๋ ๊ตฌ์กฐ๋ฅผ ์ํด์ non-projective ๊ตฌ์กฐ๋ฅผ ํ์ฉํ๊ธฐ๋ ํ๋ค. ์์๋ก ๋ค์ ๋ฌธ์ฅ 2๊ฐ๋ฅผ ๋ณด์.
- Who did Bill buy the coffee from yesterday?
- From Who did bill buy the coffee yesterday?
์ด๋ ๊ฒ ๋ ๋ฒ์งธ ๋ฌธ์ฅ๊ณผ ๊ฐ์ ๊ฒฝ์ฐ, non-projective ํ ๊ตฌ์กฐ๊ฐ ํ์ํ๊ธฐ๋ ํ๋ค.
2. Methods of dependency parsing
Dependency parsing์ ๋ฐฉ๋ฒ์ผ๋ก๋ DP, Graph alogrithms, Constrain Satisfaction ๋ฑ ๋ค์ํ ๋ฐฉ๋ฒ์ด ๋ง์ง๋ง, ๋ณธ ๊ฐ์์์๋ ๊ฐ์ฅ ์ ์ฉํ๊ฒ ์ฌ์ฉ๋๋ Transition-based parsing์ ๊ดํด ๋ค๋ฃฌ๋ค.
Greedy transition-based parsing
๋จผ์ ์ด greedy๊ฐ ๋ถ์ ์ด๋ฆ์ ๋ณด์, ๊ฐ ์ํฉ์ ๋ฐ๋ผ ๊ฐ์ฅ ์ต๊ณ ์ ์ด์ต์ ์ทจํ๋ ๋ฐฉ๋ฒ๋ก ์ด๋ผ๋ ๊ฒ์ ์๊ฐํด ๋ณผ ์ ์๋ค.
์ด ์๊ณ ๋ฆฌ์ฆ์ ์ดํด๋ณด๋ฉด, ๋ค์๊ณผ ๊ฐ์ ๊ตฌ์ฑ ์์๊ฐ ์๋ค:
- ๋ฌธ์ฅ์ ๋ชจ๋ ๋จ์ด๋ stack๊ณผ buffer์ ์กด์ฌํ๋ค.
- ๊ฐ๋ฅํ ๋์์ 3๊ฐ์ง์ด๋ค.
- Shift: buffer์ top word๋ฅผ stack์ top position์ผ๋ก ์ด๋ํ๋ค.
- Left-Arc: stack์์ top 2 words๋ฅผ ๊ณจ๋ผ dependency๋ฅผ ๋ง๋ค๊ณ (<-), dependent๋ฅผ ์ ๊ฑฐํ๋ค.
- Right-Arc: stack์์ top 2 words๋ฅผ ๊ณจ๋ผ dependency๋ฅผ ๋ง๋ค๊ณ (->), dependent๋ฅผ ์ ๊ฑฐํ๋ค.
- start/end condition
- start: buffer์๋ root ๋จ์ด 1๊ฐ, stack์๋ ๋๋จธ์ง ๋ชจ๋ ๋จ์ด๋ค์ด ์กด์ฌํ๋ค.
- end: buffer์๋ root ๋จ์ด 1๊ฐ, stack์ empty
๊ทธ๋์ Automatic Parser๋ step2์ ๋์ ์ค ํ๋๋ฅผ ์๋์ ์ผ๋ก ์ ํํ๋ classifier์ด๋ค.
๊ทธ๋ผ Automatic Parser๊ฐ 3๊ฐ์ง step ์ค ์๋์ ์ผ๋ก ์ ํํ๋(classification ํ๋) ๋ฐฉ์์ ๋ฌด์์ผ๊น? ๋ต์ ๋จธ์ ๋ฌ๋์ ํตํด classifier๋ฅผ ํ๋ จ์ํค๋ ๊ฒ์ด๊ณ , ์ด ๋ฐฉ๋ฒ๋ก ์ MaltParser์ด๋ผ๊ณ ํ๋ค.
MaltParser์์๋ top of stack word, ๊ทธ ๋จ์ด์ ํ์ฌ(POS), first in buffer word, ๊ทธ ๋จ์ด์ ํ์ฌ(POS) ๋ฑ์ input์ผ๋ก classifier์ ๋ฃ์ด ๊ฐ ๋จ๊ณ์์ ์ํํ optimal ํ parsing ์ ๋ต์ ์ํด ์ฌ์ฉ๋๋ค. MaltParser๋ ์ ๋ง ๋น ๋ฅด๊ณ ์๊ฐ ๋๋น ๋์ ์ ํ๋๋ฅผ ๊ฐ์ง๊ณ ์์ด์ web ๊ฐ์๊ฑธ parsing ํ ๋ ์ ์ฉํ๋ค๊ณ ํ๋ค.
๊ทธ๋ฌ๋, ์์์ ์ค๋ช ํ๋ค์ํผ MaltParser๋ feature๋ค์ one-hot vector๋ก ์ธ์ฝ๋ฉํ๊ณ , ๊ทธ๊ฑธ concatenate ํด์ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ ์ฐจ์์ด ๋งค์ฐ ์ปค์ง๋ค๋ ๋ฌธ์ ์ ์ด ์์๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด Neural Network๋ฅผ ์ฌ์ฉํ๊ฒ ๋์๋ค.
3. Neural dependency parser
- Sparseness : ๋จ์ด๋ฅผ bag of words๋ก ๋ํ๋ด๋ฉด dimension ์ด ์์ฒญ๋๊ฒ ์ปค์ง๊ณ , ์ฌ๊ธฐ์ ๋ค๋ฅธ ๊ฒ๋ค๋ ํฉ์ณ์ ๊ฐ ๋จ์ด์ ๋ํ feature๋ฅผ ๋ง๋๋๋ฐ (feature table ์์), ๊ทธ๋ผ ๊ทธ feature๋ ์์ฒญ sparse ํด์ง๋ค.
- Incomplete : configuration์์ ๋ณธ ์ ์ด ์๋ rare words ๋ rare combination of words ์ด ์์ ๊ฒฝ์ฐ, feature table์ ์กด์ฌํ์ง ์๊ธฐ ๋๋ฌธ์ ์์ ํ์ง ์์ ๋ชจ๋ธ์ด ๋๋ค.
- Expensive computation : 1๋ฒ๊ณผ ๊ด๋ จ๋ ๋ฌธ์ ์ด๋ค. ์์ฒญ๋๊ฒ ๋ฐฉ๋ํ feature space๋ฅผ ๊ฐ์ง๊ณ ์ด๋ฅผ hash map์ผ๋ก ํํํ๋ค ( feature id : weight of the feature) ๊ทธ๋ฐ๋ฐ ํ๋ ๋ฐฉ๋ํ feature space์์ ๊ฒ์์ ํด์ผ ๋๋ค ๋ณด๋ ์ด ์์ฒด๋ง์ผ๋ก ์์ฒญ๋๊ฒ ๋ง์ ์๊ฐ์ ์ก์๋จน๊ฒ ๋๋ ๊ฒ์ด๋ค.
1. First Win: Distributed Representations
์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ๋ค์ ๋ฐฉ๋ฒ๋ค์ ๋์ ํ๋ค:
- ๊ฐ ๋จ์ด๋ค์ d-dimensional ๋ฒกํฐ๋ก ํํํ๋ค. (ex. word embedding) -> ๋น์ทํ ๋จ์ด๋ ๊ฐ๊น์ด ๋ฒกํฐ ๊ฑฐ๋ฆฌ๋ฅผ ๊ฐ์ง๊ฒ ๋๋ค.
- ํ์ฌ์ dependency label ๋ํ ๋ฒกํฐ๋ก ํํํ์ฌ ๋ํ๋ค.
์ด๋ ๊ฒ ์ฌ์ง๊ณผ ๊ฐ์ด, ๋จ์ด์ ํ์ฌ, dependency ๋ชจ๋๋ฅผ ๋ฒกํฐํ์์ผ ๋ํด, ํ๋์ ๊ธด ๋ฒกํฐ๋ก ๋ง๋ ๋ค.
2. Second Win: Deep Learning classifiers are non-linear classifiers
softmax์ ๊ฐ์ ๋น์ ํ์ฑ ๋ถ๋ฅ๊ธฐ๋ฅผ ํตํด linear boundary๊ฐ ์๋ non-linear boundary๋ฅผ ์ ๊ณตํจ์ผ๋ก์จ ๋ ๋์ ์ ํ์ฑ์ ๊ฐ์ง ์ ์์๋ค.
๊ทธ๋์ ์ ๋ฐฉ๋ฒ๋ค์ ๊ธฐ๋ฐ์ผ๋ก ๋ง๋ค์ด์ง neural network multi-class classifier๋ ๋ค์๊ณผ ๊ฐ๋ค:
์ฌ๊ธฐ์ ์ด๋ฃจ์ด์ง๋ ์์ ์, hidden layer์์ ์ญ์ ํ(backpropagation) ์๊ณ ๋ฆฌ์ฆ์ ํตํด ๊ฐ์ค์น๋ฅผ ์ ๋ฐ์ดํธํ๋ฉด์, ์ ๋ ฅ ๋ฐ์ดํฐ๋ฅผ ํน์ง ๊ณต๊ฐ(feature space)์์์ ์ฌ๋ฐฐ์นํ๋ ๊ฒ์ด๋ค. ์ด ๊ณผ์ ์ ๊ฐ ํด๋์ค ๊ฐ์ ๊ฒฐ์ ๊ฒฝ๊ณ๋ฅผ ๋ช ํํ๊ฒ ํด์ softmax ํจ์๋ฅผ ํตํ ๋ถ๋ฅ๊ฐ ๋ ํจ์จ์ ์ผ๋ก ์ด๋ฃจ์ด์ง ์ ์๋๋ก ํ๋ค.
4. More about neural networks: Dropout & Non-linearities
1. Dropout
์๋ ๋จธ์ ๋ฌ๋์์ ์ ๊ทํ๋ overfitting์ ๋ง๊ธฐ ์ํด ์ฌ์ฉ๋๋๋ฐ, ์ด์ ์ ๊ทํ๋ feature co-adaptation์ ๋ง๋ ๊ฒ์ด ์ฃผ ๋ชฉํ๊ฐ ๋๋ค. ์ฆ, ํ ํน์ feature๋ง ์ ๋ณ๋๊ฒ ์ฌ์ฉ๋ ์ ์๋๋ก ๋ง์ ๊ฒ์ด๊ณ , ์ด๋ฅผ Dropout ๋ฐฉ์์ด๋ผ๊ณ ํ๋ค.
๊ทธ๋์ ๊ทธ๋ฆผ์์์ ๊ฐ์ด, ๋ช ๊ฐ์ input์ ๋๋ค ํ๊ฒ ์ ์ธ์ํค๋ ๊ฒ์ด๋ค.
2. Non-linearities
sigmoid, tanh, hard tanh ๋ฑ ์ค์ํ ๊ฒ๋ค์ด ๋ง์ง๋ง, neural net์์ ๊ฐ์ฅ ํํ ์ฐ์ด๋ ReLU๋ sigmoid ํจ์์์ ouput์ด ํญ์ 0๊ณผ 1์ด ๋์ด, ๋ง์ด ๋ฐ๋ณตํ์ ๋ ๊ธฐ์ธ๊ธฐ๊ฐ ์์ค๋๋ ํ์์ ๋ง๊ธฐ ์ํด ๊ณ ์๋ ๊ธฐ๋ฒ์ด๋ค.
๊ฐ์ฅ ์ค๋ฅธ์ชฝ์ ๋ณด์ด๋ ๊ฒ์ด ReLU ํจ์์ธ๋ฐ, ์ด๋ ๊ฒ ์์ ์์ญ์ ๋ํด์๋ 0์ผ๋ก, ์์ ์์ญ์ ๋ํด์๋ ๊ทธ ๊ฐ์ ๊ทธ๋๋ก ๋ฐํํจ์ผ๋ก์จ ๊ธฐ์ธ๊ธฐ ์์ค ๋ฌธ์ ๋ฅผ ์์ ํ ์ฐจ๋จํ๋ค. ๋ํ, ๊ธฐ์กด ํ์ฑํ ํจ์์ ๋นํด ์๋๊ฐ 6๋ฐฐ๋ ๋น ๋ฅธ ์ฅ์ ๋ ์๋ค๊ณ ํ๋ค.
์ด๋ ๊ฒ, Dependency Parser๊ฐ ์ด๋ป๊ฒ ๋ฐ์ ํด ์๋์ง, NeuralNet์ ์ด์ฉํ Dependency Parser๊ฐ ์ด๋ป๊ฒ ์ด์ฉ๋๋์ง์ ๋ํด ์์๋ณด์๋ค.
'๐ ์คํฐ๋ > CS224N' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[CS224N] 6, 7, 8. RNN, LSTM, Seq2seq, Attention & Transformers (1) | 2023.12.30 |
---|---|
[CS224N] 5. Language Models and Recurrent Neural Networks (2) | 2023.11.20 |
[CS224N] 3. Natural Language Processing with Deep Learning (1) | 2023.11.14 |
[CS224N] 2. Neural Classifiers (0) | 2023.08.02 |
[CS224N] 1. Introduction and Word Vectors (0) | 2023.07.24 |