CS224N 2๋ฒ์งธ ๊ฐ์๋ฅผ ์๊ฐํ๊ณ ์ ๋ฆฌ ๋ฐ ์ง์ ๊ณต์ ๋ฅผ ์ํด ๋ธ๋ก๊ทธ๋ฅผ ์ด๋ค. ์ฐธ๊ณ ๋ก ๋ณธ์ธ์ 2021 Winter ๋ฒ์ ์ ์๊ฐํ๋ค.
Review: Main idea of Word2Vec & Negative Sampling
์ง๋๋ฒ ๋ธ๋ก๊ทธ์์ Word2Vec์ ๊ดํด ์ ๋ฆฌํ๋ค. ๊ฐ๋จํ๊ฒ ๋ณต๊ธฐํด ๋ณด์.
์ฐ์ Word2Vec์๋ CBOW, Skip-gram์ด๋ผ๋ ๋ ๊ฐ์ง ์๊ณ ๋ฆฌ์ฆ์ด ์ฐ์ธ๋ค.
1. CBOW
๋งฅ๋ฝ ๋ฒกํฐ๊ฐ ์ ๋ ฅ, ์ค์ฌ ๋ฒกํฐ๊ฐ ์ถ๋ ฅ์ธ ๊ฒฝ์ฐ๋ฅผ CBOW ์๊ณ ๋ฆฌ์ฆ์ด๋ผ๊ณ ํ๋ค. CBOW์ ์ ์ฒด์ ์ธ ๊ตฌ์กฐ๋ ๋ค์๊ณผ ๊ฐ๋ค:
๊ณผ์ ์ ์์ฝํ์๋ฉด,
1. ์ง์ ํ ์๋์ฐ ํฌ๊ธฐ์ 2๋ฐฐ ํฌ๊ธฐ์ ๋ฒกํฐ๊ฐ one-hot encoding์ผ๋ก ํํ๋์ด input์ผ๋ก ๋ค์ด๊ฐ๋ค.
2. ๊ฐ๊ฐ์ input๋ง๋ค ์ฒซ ๋ฒ์งธ ๊ฐ์ค์น W์ ๊ณฑํด์ง๊ณ , ๊ทธ ํ๊ท ์ ์ฐ์ ํ์ฌ M ๋ฒกํฐ๋ก ์ง์ ํ๋ค.
3. ์ด ๋ฒกํฐ๋ ๋ ๋ฒ์งธ ๊ฐ์ค์น W'์ ๊ณฑํด์ ธ softmax ํจ์๋ฅผ ๊ฑฐ์ณ y^๋ฒกํฐ๊ฐ ์ง์ ๋๋ค.
4. ์ต์ข ์ ์ผ๋ก cross entropy ํจ์๋ก ์ต์ข ์ค์ฌ ๋จ์ด๊ฐ ๋ฌด์์ธ์ง ์์ธกํ ์ ์๊ฒ ๋๋ค.
์ด๋ ๋ง์ง๋ง์ cross entopy ํจ์๋ฅผ ์ด์ฉํด loss๋ฅผ ๊ณ์ฐํ๋ ๊ณผ์ ์์ Gradient Descent๋ฅผ ์ฌ์ฉํด ๊ณ์ ์ ๋ฐ์ดํธํด๊ฐ๋ค.
2. Skip-gram
Skip-gram์ ์ค์ฌ ๋ฒกํฐ๋ฅผ ํตํด ๋งฅ๋ฝ ๋ฒกํฐ๋ค์ ์์ธกํ๋ ์๊ณ ๋ฆฌ์ฆ์ด๋ค. Skip-gram์ ์ ์ฒด์ ์ธ ๊ตฌ์กฐ๋ ๋ค์๊ณผ ๊ฐ๋ค:
์ฌ๊ธฐ์์ ์ถ๋ ฅ ๋ฒกํฐ๋ CBOW์ ์ ๋ ฅ ๋ฒกํฐ์ ๋ง์ฐฌ๊ฐ์ง๊ณ ํฌ๊ธฐ๊ฐ ์๋์ฐ ํฌ๊ธฐ์ 2๋ฐฐ์ด๋ค.
์ด์ธ ๋ค๋ฅธ ๊ณ์ฐ ๋ฐฉ์์ ์์ CBOW์ ๊ณ์ฐ ๋ฐฉ์๊ณผ ์์๋ง ๋ค๋ฅด๊ณ , ์ด์ธ์ ๊ฒ๋ค์ ๊ฐ๋ค.
ํด๋น ๊ฐ์์์๋ Skip-gram ์๊ณ ๋ฆฌ์ฆ ๊ธฐ๋ฐ์ Word2Vec์ ์ฌ์ฉํ๋ค.
3. Optimization of Word2Vec
๊ธฐ์กด์ Gradient Descent ๋ฐฉ์์ ๊ณ์ฐํ๊ธฐ์ ๋น์ฉ์ด ๋๋ฌด ๋ง์ด ๋ ๋ค. ์ด๋ฅผ ๋ณด์ํ๊ธฐ ์ํด Stochastic Gradient Descent (SGD) ๊ธฐ๋ฒ์ ์ ์ฉํ๋ค.
๊ทธ๋ฌ๋ ์ ์ด๋ฏธ์ง์ ๊ฐ์ด, Word2Vec์ ์ , ์ถ๋ ฅ์ผ๋ก ์ฌ์ฉ๋๋ one-hot encoding์ ๊ฒฝ์ฐ, ๋๋ฌด sparse ํ vector๋ผ SGD๋ฅผ ์ ์ฉํ๊ธฐ ๋นํจ์จ์ ์ด๋ผ๋ ๋ฌธ์ ๊ฐ ์์๋ค. 0์์์ gradient๋ฅผ ๊ณ์ฐํ๋ฉด ํญ์ 0 ์ผ ํ ๋ฐ, ๊ทธ๊ฒ์ ๋ฌด์ํ๊ณ ๊ณ์ ๊ณ์ฐํ๋ ๊ฒ์ ๋ถํ์ํ ์ง์ด๊ธฐ ๋๋ฌธ์ด๋ค. ์ด๋ฅผ ์ํด negative sampling์ด๋ผ๋ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ค.
4. Negative Sampling
Negative Sampling์ ์ค์ฌ ์์ด๋์ด๋ ๋ค์๊ณผ ๊ฐ๋ค:
์ฃผ๋ณ ๋จ์ด๋ค์ ๊ธ์ (positive), ๋๋ค์ผ๋ก ์ํ๋ง๋ ๋จ์ด๋ค์ ๋ถ์ (negative)์ผ๋ก ๋ ์ด๋ธ๋ง ํ์ฌ ์ด์ง ๋ถ๋ฅ ๋ฌธ์ ๋ฅผ ์ํ ๋ฐ์ดํฐ์ ์ ๋ง๋ค์ด ์ด์ง ์ ํ ํ๊ท๋ฅผ ํ์ต์ํจ๋ค.
์์
์๋ฅผ ๋ค์ด, ์ด์ ๋ธ๋ก๊ทธ์ ์ผ๋ 'The fat cat sat on the mat'๋ผ๋ ์์๋ฅผ ๋ค์ด ๋ณด์.
Skip-gram ๋ฐฉ์์ ํ๋์ ์ค์ฌ ๋จ์ด๋ก๋ถํฐ ๋งฅ๋ฝ ๋จ์ด๋ค์ ์์ธกํ๋ ๋ฐฉ์์ด์ง๋ง, negative sampling์ ์ฌ์ฉํ๋ฉด positive๊ณผ negative ๋จ์ด๋ค์ sampling ํด์ผ ํ๋ค.
์ ์ฌ์ง๊ณผ ๊ฐ์ด, ์ง์ ๋ window ๋ด์ ๋จ์ด๋ค์ sampling ํ ๊ฒ์ positive sampling, ๋จ์ด corpus ๋ด์ ๋จ์ด๋ค์ random ํ๊ฒ sampling ํ ๊ฒ์ negative sampling์ด๋ผ๊ณ ํ๋ค. positive sampling์ label์ 1๋ก, negative sampling์ 0์ label๋ก ๊ฐ๋๋ค.
์ดํ, ์์ ๊ฐ์ด ํด๋น pair์ ๋ ๊ฐ์ ์ ๋ ฅ์ผ๋ก ์ ์ ํ๋๋ฐ, ์ ๋ ฅ 1์ ์ค์ฌ ๋จ์ด์ embedding layer(๊ณ ์ )๋ก, ์ ๋ ฅ 2๋ ํด๋น ๋จ์ด๋ค์ embedding layer๋ก ์ง์ ํ๋ค. ๋ ๋จ์ด๋ค์ ๋ชจ๋ ํ ๋จ์ด corpus ๋ด์์ ๋์จ ๋จ์ด๋ค์ด๊ธฐ ๋๋ฌธ์ embedding layer์ ํฌ๊ธฐ๋ ๊ฐ๋ค.
์๋ ํด๋น embedding layer์ ๊ณผ์ ์ ๊ฑฐ์ณ ์ต์ข ์ ์ผ๋ก ์์ฑ๋ layer์ด๋ค.
์ดํ, ์ค์ฌ ๋จ์ด์ ์ฃผ๋ณ ๋จ์ด์ ๋ด์ ๊ฐ์ ์ด ๋ชจ๋ธ์ ์์ธก๊ฐ์ผ๋ก ํ๊ณ , ๋ ์ด๋ธ๊ณผ์ ์ค์ฐจ๋ก๋ถํฐ ์ญ์ ํํ์ฌ ์ค์ฌ ๋จ์ด์ ์ฃผ๋ณ ๋จ์ด์ ์๋ฒ ๋ฉ ๋ฒกํฐ๊ฐ์ ์ ๋ฐ์ดํธํด ๋๊ฐ๋ค. ํ์ต ํ์๋ ์ข์ธก์ ์๋ฒ ๋ฉ ํ๋ ฌ์ ์๋ฒ ๋ฉ ๋ฒกํฐ๋ก ์ฌ์ฉํ ์๋ ์๊ณ , ๋ ํ๋ ฌ์ ๋ํ ํ ์ฌ์ฉํ๊ฑฐ๋ ๋ ํ๋ ฌ์ ์ฐ๊ฒฐ(concatenate)ํด์ ์ฌ์ฉํ ์๋ ์๋ค๊ณ ํ๋ค.
์์
์์๋ฅผ ํตํด ์์๋ณธ negative sampling์ ์์์ผ๋ก ๋ํ๋ด๋ฉด ๋ค์๊ณผ ๊ฐ๋ค:
๊ฐ์ด๋ฐ -๋ฅผ ๊ธฐ์ค์ผ๋ก ์, ๋ค 2๊ฐ์ ์์๋ฅผ ๋๋ ๋ณด๊ณ , ๊ทธ์ ๋ํด ๋ถ์ํด ๋ณด์.
1. ์ฒซ ๋ฒ์งธ ์์
์ด ์์์ center word์ window ๋ด์ word์ ๋ด์ ๊ฐ, positive sampling์ ๋ปํ๋ค. ์ด ๋ด์ ๊ฐ์ ๋ค์ sigmoid function์ ํตํด 0๊ณผ 1 ์ฌ์ด์ ๊ฐ์ผ๋ก ํํํ๋๋ฐ, ์ด ๊ฐ์ด ์ต๋ํ์ํค๋ ๊ฒ์ด ๋ชฉํ์ด๋ค.
2. ๋ ๋ฒ์งธ ์์
์ด ์์์ random ํ๊ฒ ์ํ๋งํ ๋จ์ด์ ์ค์ฌ ๋จ์ด์ ๋ด์ ๊ฐ, negative sampling์ ๋ปํ๋ค. ์ด ๋ด์ ๊ฐ ๋ํ sigmoid funciton์ ํตํด 0๊ณผ 1 ์ฌ์ด์ ๊ฐ์ผ๋ก ํํํ๋๋ฐ, negative sampling ๊ฐ์ด๋ฏ๋ก, ์ด ๊ฐ์ ์ต์ํ์ํค๋ ๊ฒ์ด ๋ชฉํ์ด๋ค.
sigmoid function์ ๋ค์๊ณผ ๊ฐ๋ค:
์ ๊ทธ๋ํ์์ ๋ณด๋ค์ํผ, input ๊ฐ์ด ์์์ผ ๊ฒฝ์ฐ, ์๋์ ์ผ๋ก ์์ ๊ฐ์ด ์ถ๋ ฅ๋๊ณ , ์์์ผ ๊ฒฝ์ฐ ์๋์ ์ผ๋ก ๋์ ๊ฐ์ด ์ถ๋ ฅ๋๋ฏ๋ก, negative sampling์์๋ input ๊ฐ์ ์์๋ก, positive sampling์์๋ input ๊ฐ์ ์์๋ก ์ค์ ํ๋ค.
์ต์ข ์ ์ผ๋ก ์ ๋ฆฌํ๋ฉด, negative sampling์ ๋ชฉ์ ์ ์ค์ window ๋ด์ ๋จ์ด๊ฐ ๋์ฌ ํ๋ฅ ์ ์ต๋ํ์ํค๊ณ , window ์ธ๋ถ์ ๋๋คํ ๋จ์ด๊ฐ ๋์ฌ ํ๋ฅ ์ ์ต์ํ์ํค๋ ๊ฒ์ด๋ค.
Co-occurrence matrix
Skip-gram์์๋ count-based co-occurrence matrix๋ฅผ ์ฌ์ฉํ๋ค.
1. Window based co-occurrence matrix
Window based co-occurence matrix์์๋ ํ ๋ฌธ์ฅ์ ๊ธฐ์ค์ผ๋ก ์๋์ฐ์ ๊ฐ ๋จ์ด๊ฐ ๋ช ๋ฒ ๋ฑ์ฅํ๋ ์ง๋ฅผ ์ธ์ด matrix๋ฅผ ๊ตฌ์ฑํ๋ค.
ํด๋น matrix๋ฅผ ํตํด syntatic, semantic ์ ๋ณด๋ฅผ ์ป์ ์ ์๋ค๋ ์ฅ์ ์ด ์๋ค.
2. Word-document matrix (๋จ์ด-๋ฌธ์ ํ๋ ฌ)
Word-document matrix๋ ํ ๋ฌธ์๋ฅผ ๊ธฐ์ค์ผ๋ก ๊ฐ ๋จ์ด๊ฐ ๋ช ๋ฒ ๋ฑ์ฅํ๋ ์ง๋ฅผ ์ธ์ด matrix๋ฅผ ๊ตฌ์ฑํ๋ค. ๋ฌธ์์ ์๋ ๋ง์ ๋จ์ด๋ค ์ค ๋น๋ฒํ๊ฒ ๋ฑ์ฅํ๋ ํน์ ๋จ์ด๊ฐ ์กด์ฌํ๋ค๋ ๊ฒ์ ์ ์ ํ๋ค. (ex. ๋ฌธ์ ๊ฐ ์ ์ฌ๋ ์ธก์ , tf-idf ๋ฑ)
๊ทธ๋ฌ๋ ์ด์ ๊ฐ์ count-based matrix๋ ๋จ์ด ์์ ๋ฐ๋ผ vector์ ๋ํ ์ฆ๊ฐํ๋ค. ๊ทธ๋์ SVD ๋๋ LSA ๋ฑ์ ์ด์ฉํ์ฌ ์ฐจ์์ ์ถ์์ํจ ํ ์ฌ์ฉํ๋ค. ์ด๋ ๋๋ถ๋ถ์ ์ ๋ณด๋ฅผ ์์ ์ฐจ์์ ํ๋ ฌ์์ ํฌํจ์ํฌ ์ ์๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณ๋๋ค.
3. SVD (Singular Value Decomposition)
์ถํ ์์
GLOVE (Global Vectors for Word Representation)
1. ์๋ฆฌ
์ง๊ธ๊น์ง count-based์ direct-prediction ๋ฐฉ์์ ๋ชจ๋ ์ดํด๋ณด์๋ค.
์ ์ฌ์ง์ ๋์์๋ฏ์ด, Co-occurence matrix์ ๊ฐ์ Count-based ๋ฐฉ์์ ๋น ๋ฅธ ํ๋ จ์ด ๊ฐ๋ฅํ๊ณ , ํต๊ณ์ ์ผ๋ก ํ์ฉ์ด ๊ฐ๋ฅํ๋ค๋ ์ฅ์ ์ด ์์ง๋ง, ๋จ์ด ๊ฐ ์ ์ฌ ๊ด๊ณ๋๋ฅผ ํ์ ํ๊ธฐ ์ด๋ ต๊ณ , ๋ง์ด ๋ฑ์ฅํ๋ ๋จ์ด์ ๋๋ฌด ํฐ ๊ฐ์ค์ ๋ถ์ฌํ๋ค๋ ๋จ์ ์ด ์์๋ค.
๋ฐ๋๋ก, Word2Vec์ ๊ฐ์ Direct prediction ๋ฐฉ์์ ๋์ ์์ค์ ์ฑ๋ฅ์ ๋ณด์ด๊ณ , ๋จ์ด ์ ์ฌ ๊ด๊ณ์ ๋ณต์กํ ํจํด์ ์ฐพ์ ์ ์๋ค๋ ์ฅ์ ์ด ์์ง๋ง, ๋ง๋ญ์น ํฌ๊ธฐ๊ฐ ์ฑ๋ฅ์ ์ํฅ์ ๋ฏธ์น๊ณ , ํต๊ณ์ ์ผ๋ก ์ฌ์ฉํ๊ธฐ ๋นํจ์จ์ ์ด๋ผ๋ ๋จ์ ์ด ์์๋ค.
์ ๊ธฐ๋ฒ๋ค์ ์ฅ์ ๋ง์ ๊ฐ์ถ ๊ธฐ๋ฒ์ผ๋ก, GLOVE๋ผ๋ ์๋ก์ด ๋ฐฉ๋ฒ์ด ๋ฑ์ฅํ๋ค.
GLOVE์ ๊ธฐ๋ณธ์ ์ธ ์์ด๋์ด๋ ๋ค์๊ณผ ๊ฐ๋ค:
- ์๋ฒ ๋ฉ๋ ๋จ์ด ๋ฒกํฐ ๊ฐ ์ ์ฌ๋ ์ธก์ ์ ์์ํ๊ฒ ํ๋ฉด์ (word2vec์ ์ฅ์ )
- ๋ง๋ญ์น ์ ์ฒด์ ํต๊ณ ์ ๋ณด๋ฅผ ๋ฐ์ํ์ (co-occurrence matrix์ ์ฅ์ )
GLOVE์ ๋ชฉ์ ํจ์๋ ๋ ๋จ์ด ๋ฒกํฐ์ ๋ด์ ์ด ๋์ ๋ฐ์ ํ๋ฅ ์ ๋ํ ๋ก๊ทธ๋ฅผ ๋ํ๋ด๋ ๊ฒ์ด๋ค. ์์์ผ๋ก ํํํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค:
๋ค์ ์์๋ฅผ ํ์ฉํด์ GLOVE์ ๋ชฉ์ ํจ์๋ฅผ ์ ํํ๊ฒ ์ ์ํด๋ณด์.
๋ค์ ๋ ธํธ๋ฅผ ์์ฐจ์ ์ผ๋ก ๋ฐ๋ผ๊ฐ๋ฉด ์ดํด๋ ๊ฒ์ด๋ค.
์ด๋ ๊ฒ, ์ฐ๋ฆฌ๋ ๋ ๋จ์ด ๋ฒกํฐ์ ๋ด์ ์ด ๋์ ๋ฐ์ ํ๋ฅ ์ ๋ํ ๋ก๊ทธ๋ฅผ ๋ํ๋ด๋ ๊ฒ ์ด๋ผ๋ ๋ชฉ์ ์ ๋ฌ์ฑํ๋ค.
2. ๊ฒฐ๊ณผ
๊ฒฐ๊ณผ๋ ๋ค์๊ณผ ๊ฐ๋ค:
๊ฒฐ๊ณผ๋ฅผ ๋ณด๋ฉด frog์ ๋น์ทํ ๋๋ฌผ๋ค์ ์ถ์ถํด ๋ด๋ ๊ฒ์ ๋ณผ ์ ์๋ค.
Evaluation of word vectors
๋ค์์ ๋จ์ด ์๋ฒ ๋ฉ ๋ชจ๋ธ๋ค์ ์ด๋ค ๋ฐฉ์์ผ๋ก ํ๊ฐํ ์ ์๋์ง์ ๊ดํด ์ค๋ช ํ๋ค.
ํ๊ฐ ๋ฐฉ์์ ๋ด์ , ์ธ์ ์ ๋ ๊ฐ์ง ํ๊ฐ ๋ฐฉ์์ผ๋ก ๋๋๋ค.
- Intrinsic (๋ด์ ) ํ๊ฐ ๋ฐฉ์์ ํน์ง
- ๊ตฌ์ฒด์ ์ธ subtask (๋จ์ด ๊ฐ์ ์ ์ฌ์ฑ ํ๋จ ๋ฑ)์ ๋ํด ํ๊ฐํ๋ค.
- ๊ณ์ฐ ์๋๊ฐ ๋น ๋ฅด๋ค.
- ํด๋น ์์คํ ์ ์ดํดํ๊ธฐ ์ข๋ค.
- ๋ด์ ํ๊ฐ ๋ฐฉ์์ ํ์ค์์ ํด๋น ์์คํ ์ด ์ ์ฉํ์ง ํ๋จํ ์ ์๋ค๋ ๋จ์ ์ด ์๋ค.
- Extrinsic (์ธ์ ) ํ๊ฐ ๋ฐฉ์์ ํน์ง
- ํ์ค์์ ํด๋น ์์คํ ์ ์ ์ฉ์์ผ ํ๋จํ๋ค.
- ๊ณ์ฐ ์๋๊ฐ ๋๋ฆฌ๋ค.
- ํด๋น ์์คํ ์ด ๋ฌธ์ ์ธ์ง, ๋ค๋ฅธ ์์คํ ๊ณผ์ ์ํธ์์ฉ์ด ๋ฌธ์ ์ธ์ง ์๊ธฐ ์ด๋ ต๋ค.
1. Extrinsic word vector evaluation
์ค์ ํ์ค ๋ฌธ์ (real task)์ ์ง์ ์ ์ฉํ์ฌ ์ฑ๋ฅ์ ํ๊ฐํ๋ ๋ฐฉ์์ด๋ค. Glove๋ ์ธ์ ํ๊ฐ์์ ์ข์ ์ฑ๋ฅ์ ๋ณด์ธ๋ค.
GloVe๋ ๊ฑฐ์ ๋ชจ๋ ์ธ์ ํ๊ฐ์์ ์ข์ ์ฑ๋ฅ์ ๋ณด์๋ค.
2. Intrinsic word vector evaluation
๊ตฌ์ฒด์ ์ธ ๋ฐฉ๋ฒ์ผ๋ก๋, word vector analogies๋ผ๋ ๋ฐฉ๋ฒ์ด ์๋ค. (analogy๋ ์ ์ฌ๋ฅผ ์๋ฏธํ๋ค)
์๋ฅผ ๋ค์ด, ๋ค์๊ณผ ๊ฐ์ ์์์ ๋ํด ์์ธก์ ํ ์ ์๋์ง ์ฌ๋ถ์ด๋ค.
ex) man:woman :: king: ?
์์ผ๋ก ๋ณด๋ฉด ๋ค์๊ณผ ๊ฐ์ด d๋ฅผ ์ฐพ๋ ๋ฌธ์ ๋ผ๊ณ ์ ์ํ ์ ์๋ค.
์ด๋ฌํ ๋ด์ ํ๊ฐ์ ์์๋ก๋ semantic (์๋ฏธ) ๋ฐฉ์๊ณผ syntatic (์์)๋ฐฉ์์ด ์๋ค.
- Semantic
- Syntatic
Dimension, corpus size ๋ฑ์ ๋ค๋ฅด๊ฒ ํ๋ฉด์ ์ฌ๋ฌ ์๋ฒ ๋ฉ ๋ชจ๋ธ์ ๋ํด์ analogy ๋ถ์์ ์งํํด๋ณธ ๊ฒฐ๊ณผ, GloVe๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์๋ค.
3. Another Intrinsic word vector evaluation
์ด๋ฒ์๋ ์ธ๊ฐ ํ๋จ (human judgements)์ ๋ฐ๋ฅธ word vector distances์ ๋จ์ด ๋ฒกํฐ ๊ฐ ์ฝ์ฌ์ธ ์ ์ฌ๋๋ฅผ ๊ณ์ฐํ๋ค.
๋ค์์ WordSim353์ด๋ผ๋ ๋ฐ์ดํฐ์ ์ด๋ค.
GloVe๋ ์ด ํ๊ฐ ๋ฐฉ์์์๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ธ๋ค.
4. Word senses and word sense ambiguity
ํ ๋จ์ด๊ฐ ๋ค์ํ ์๋ฏธ๋ฅผ ๋ดํฌํ๋ ๊ฒฝ์ฐ, ์ด๋ป๊ฒ ์ ์ํ ์ ์์๊น ?
๋ค์ pike๋ผ๋ ๋จ์ด์ ์์๋ฅผ ๋ค์ด ๋ณด์.
์ด ๋ฌธ์ ๋ ์ด๋ป๊ฒ ํด๊ฒฐํ ์ ์์๊น ?
1. Improving Word Representations Via Global Context And Multiple Word Prototypes (Huang et al. 2012)
ํน์ ๋จ์ด์ ์๋์ฐ๋ค์ ํด๋ฌ์คํฐ๋งํ ํ, ๋จ์ด๋ค์ bank1, bank2, bank3 ๋ฅผ ์ค์ฌ์ผ๋ก ๋ค์ ์๋ฒ ๋ฉํ๋ค.
๊ทธ๋ฌ๋ ์ด ๋ฐฉ๋ฒ์ ๋ถ์ ํํ๋ฏ๋ก ๋ง์ด ์ฐ์ด์ง ์๋๋ค.
2. Linear Algebraic Structure of Word Senses, with Applications to Polysemy
์ด ๋ฐฉ๋ฒ์ ๋จ์ด๊ฐ ์ฌ๋ฌ๊ฐ๋ผ๋ ํ ๋จ์ด ๋น ํ vector๋ง์ ๋ณด์ ํ๊ฒ ํ๋ ๊ฒฝ์ฐ์ด๋ค. ์ด ๋ฐฉ์์์, ๋ชจ๋ ์๋ฏธ์ vector์ ๋ํ ํ๊ท vector ๋ง์ ์ฌ์ฉํ๋ค.
์ด๋ ๊ฒ, ์ต์ข ์ ์ผ๋ก Word2Vec, Co-occurrence matrix, GloVe์ ์ด์ ๋ํ ํ๊ฐ ๋ฐฉ์์ ๊ดํด ์์๋ณด์๋ค.
'๐ ์คํฐ๋ > CS224N' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[CS224N] 6, 7, 8. RNN, LSTM, Seq2seq, Attention & Transformers (1) | 2023.12.30 |
---|---|
[CS224N] 5. Language Models and Recurrent Neural Networks (2) | 2023.11.20 |
[CS224N] 4. Syntactic Structure and Dependency Parsing (0) | 2023.11.18 |
[CS224N] 3. Natural Language Processing with Deep Learning (1) | 2023.11.14 |
[CS224N] 1. Introduction and Word Vectors (0) | 2023.07.24 |