μ΄λ² λ°©ν λ NLP κ΄λ ¨ κ°λ μ νμ€νκ² μ‘κ³ μ CS224N κ°μλ₯Ό μκ°ν΄μΌκ² λ€κ³ μκ°νλ€.
CS~N κ°μλ μ€ν ν¬λμμ κ°λ₯΄μΉλ CS κ°μ μ’ λ₯μΈ κ² κ°μλ°,
λνμ μΌλ‘λ λ¨Έμ /λ₯λ¬λ κΈ°μ΄ κ°μμΈ CS231Nμ΄ μκ³ , λλ λ£λ€κ° λ§μμλ€..(λ무 κΈΈμ΄)
μ΄ κ°μλ 2λ μ νλ²μ© μ λ°μ΄νΈλλ κ² κ°μλ°, λλ 2021 Winter κ°μλ₯Ό μκ°νλ€. [μ νλΈ νλ μ΄λ¦¬μ€νΈ]
첫 κ°μμ μ£Όμ λ μ¬λμ μΈμ΄μ λ¨μ΄ μλ―Έμ κ΄ν λ΄μ©μ΄λ€.
νν, μ°λ¦¬κ° μ¬μ©νλ λ¨μ΄λ€μ μ»΄ν¨ν°κ° μ§κ΄μ μΌλ‘ μμλ£κΈ°λ μ΄λ ΅λ€.
μ΄λ₯Ό μν΄ λ¨μ΄λ€μ μ«μλ‘ μ΄λ£¨μ΄μ§ 벑ν°λ€λ‘ λ³νμμΌμ£Όμ΄μΌ νλ€.
How to represent the meaning of the word?
κ·Έλ λ€λ©΄ λ¨μ΄μ μλ―Έλ₯Ό μ΄λ»κ² λνλΌ μ μμκΉ?
1. Wordnet
Wordnetμ λμμ΄, μνκ΄κ³ μΈμ΄μ μ§ν©μ΄λ€. λ€μ μμλ₯Ό μ°Έκ³ νμ.
μ΄μ κ°μ WordNetμ λ¨μ μ λ€μκ³Ό κ°λ€:
- λμμ€ (λ¨μ΄μ μ¬μ© λ§₯λ½)λ₯Ό λ°μνμ§ λͺ»νλ€.
- λ¨μ΄λ€μ μλ‘μ΄ μλ―Έλ₯Ό μκΈ° μ΄λ ΅λ€ (μ΅μ μ 보 μ μ§ λΆκ°)
- νλ¨ κΈ°μ€μ΄ μ£Όκ΄μ μ΄λ€.
- λ¨μ΄ μλ―Έ κ°μ μ μ¬μ±μ νμ νκΈ° μ΄λ ΅λ€.
2. One-hot vector
λ λ²μ§Έλ one-hot vector νν λ°©μμ΄λ€.
μ΄λ λ°μ΄ν° λΆμμλ λ§μ΄ μ°μ΄λ one-hot encoding λ°©μκ³Ό κ±°μ μ μ¬νλ€.
μ΄ λ°©μμ λ²μ£Όν 벑ν°μμ λͺ¨λ λ³μλ₯Ό 0κ³Ό 1μ μ΄κ±°νμΌλ‘ λ§λ€μ΄ νννλ λ°©μμ΄λ€. λ€μ μμλ₯Ό μ°Έκ³ νμ.
μ κ·Έλ¦Όκ³Ό κ°μ΄, λ¨μ΄λ€μ΄ μ¬λ¬κ° μμ λ, ν λ¨μ΄λ€μ΄ μλ μ리μ 1μ, μλ μ리μ 0μ λ£μμΌλ‘μ¨ ννν μ μλ€.
One-hot vector ννλ°©μμ λ¨μ μ λ€μκ³Ό κ°λ€:
- λ¨μ΄μ κ°μμ vectorμ κ°μκ° κ°μΌλ―λ‘, ν° μ°¨μμ΄ νμνλ€.
- λ¨μ΄ κ΄κ³μ νμ μ μν΄μλ μ κ³±μ΄ νμνλ©°, μ΄λ €μμ§λ€.
μ΅μ’ μ μΌλ‘ λμ¨ κ²°λ‘ μ, Vector μ€μ€λ‘κ° μ μ¬μ±μ κ³μ°ν μ μλλ‘ νμ !! λ κ²μ΄λ€.
3. Distributional semantics
κ·Έ λ°©μμ΄ distributional semantics, νκ΅μ΄λ‘λ λΆν¬ μλ―Έλ‘ μ΄λΌκ³ λ νλ€λλΌ.
μ λ κ°μ§ λ°©μμ λ¬Έμ μ μ κ°μ ν λ°©λ²μΌλ‘, λ¨μ΄μ λ¬Έλ§₯μ κ³ λ €ν λ°©μμ΄λ€.
μ΄ λ°©μμ fixed window sizeλ₯Ό ν΅ν΄ λ¨μ΄λ₯Ό ννν λ μ£Όμ contextλ₯Ό μ΄ν΄μ λΉμ·ν λ¬Έλ§₯μμ λνλλ λ¨μ΄λ€μ μλ‘ λΉμ·ν 벑ν°λ₯Ό κ°μ§λλ‘ νλ€.
μ°λ¦¬λ μ΄λ κ² μμ±λ word vectorsλ₯Ό word embeddings, word representationsλΌκ³ λΆλ₯Έλ€.
Word2Vec
word2vecμ word vectorλ€μ νμ΅μ μν΄ λ§λ€μ΄μ§ νλ μμν¬μ΄λ€.
1. μμ΄λμ΄
word2vec νλ μμν¬μ μμ΄λμ΄λ λ€μκ³Ό κ°λ€:
- μΆ©λΆν μμ ν μ€νΈ corpus (λ§λμΉ)κ° μκ³ , λͺ¨λ κ°κ°μ λ¨μ΄λ 벑ν°λ‘ λνλ΄μ§ μ μλ€.
- ν μ€νΈμ ν¬μ§μ tλ₯Ό κ±°μΉλλ°, μ¬κΈ°μλ μ€μ¬ λ¨μ΄ cμ μΈλΆ λ¨μ΄ oκ° μλ€.
- cμ oμ word vectorμ μ μ¬μ±μ μ΄μ©νμ¬ νλ₯ μ κ³μ°νλ€.
- μ΄ νλ₯ μ μ΅λνμν€κΈ° μν΄ word vectorλ₯Ό κ°±μ μν¨λ€.
2. κ³Όμ
μ΄ κ°λ μ μκ°νν΄μ κ³Όμ μ 보면 λ€μκ³Ό κ°λ€:
1) νμ¬ μμΉ tμ μλ λ¨μ΄λ₯Ό , μ£Όλ³μ μλ λ¨μ΄λ₯Ό , μ΄λΌκ³ ν λ , λ₯Ό ꡬνλ€.
2) , λ₯Ό μ΅λννλ vectorλ₯Ό μ°Ύλλ€.
3) corpus μμ λͺ¨λ λ¨μ΄μ λν΄ 1~2 λ¨κ³λ₯Ό κ±°μΉλ€.
3. λͺ©μ ν¨μ (objective function) μ΅μ ν
1. Likelihood
μ΄ ν¨μλ word vector π½κ° μ£Όμ΄μ‘μ λ, window λ΄μ context wordκ° ν΄λΉ μμΉμ λνλ νλ₯ μ κ³±μ΄λ€.
μμ λ§λ‘ νμ΄ μ°λ©΄, κ° λ¨μ΄λ₯Ό μ€μ¬ λ¨μ΄λ‘ μ¬μ©νλ κ³±μ μ·¨ν ν, κ° λ¨μ΄μ κ³±κ³Ό μ€μ¬ λ¨μ΄μμ ν΄λΉ λ¬Έλ§₯ λ¨μ΄λ₯Ό μμΈ‘ν νλ₯ μ μ£Όλ³μ μ°½μ μ¬μ©νμ¬ κ³μ°νλ λ°©μμ΄ λλ€.
2. Objective function
Objective function, λͺ©μ ν¨μμ λ μλΏλ μ΄λ¦μ loss function, cost functionμΈ κ² κ°λ€.
μλ¬΄νΌ μ¬κΈ°μμ object functionμ λ€μκ³Ό κ°λ€:
μ¬κΈ°μ λͺ©μ ν¨μλ μμ€ ν¨μμ΄λ―λ‘, λͺ©μ ν¨μλ₯Ό μ΅μνμν€λ κ²μ΄ μμΈ‘ νλ₯ μ λμ΄λ κ²μ΄λ€.
κ·Έλ¬λ μ°λ¦¬μ λͺ©νλ J(π½)λ₯Ό μ΅μνμν€λ κ²μ΄λ€.
3. Predict function
Q: μ€μ¬ λ¨μ΄κ° μ£Όμ΄μ§ κ²½μ°, λ¬Έλ§₯μμ λνλλ λ¨μ΄μ νλ₯ μ μ΄λ»κ² κ³μ°ν μ μμκΉ ?
A: μ°λ¦¬λ ν λ¨μ΄μ λν΄ λ κ°μ vectorμ μ¬μ©ν μμ μ΄λ€.
νλλ ν΄λΉ λ¨μ΄κ° center word(μ€μ¬ λ¨μ΄)μΌ κ²½μ° (μ΄λ₯Ό v_w λΌκ³ νννλ€),
λ€λ₯Έ νλλ ν΄λΉ λ¨μ΄κ° context word(λ¬Έλ§₯ λ¨μ΄)μΌ κ²½μ° (μ΄λ₯Ό u_w λΌκ³ νννλ€)μ΄λ€.
μ΄μ κΈ°λ°νλ©΄ λ¬Έλ§₯ λ¨μ΄κ° λνλ νλ₯ P(o|c)λ λ€μκ³Ό κ°λ€:
μ΄ ν¨μλ₯Ό νλ² ν΄μν΄λ³΄μ.
μ°μ λΆμ. exp(u_o T v_c)λ λ΄μ μΌλ‘ oμ cμ μ μ¬μ±μ λΉκ΅νμ¬ λ΄μ κ°μ΄ ν¬λ©΄ μ μ¬νλ€λ κ²μ λνλΈλ€.
μ΄λ, expλ₯Ό μ·¨ν΄μ£Όλ μ΄μ λ λ΄μ κ°μ΄ μμκ° λμ¬ μ μμΌλ―λ‘, μμλ‘ λ°κΏμ£ΌκΈ° μν¨μ΄λ€.
λ€μμ λΆλͺ¨. μ΄μ κ΄λ ¨ν΄μλ μ°μ softmax ν¨μ μμ λ³Ό νμκ° μλ€.
softmax ν¨μλ μ΄λ ν κ° Rμ λν΄ μ΄ κ°μ 0κ³Ό 1 μ¬μ΄μ κ°μΌλ‘ λ³ννλ κ²μ μλ―Ένλ€.
λΆλͺ¨μμλ νλ₯ λΆλ°°λ₯Ό μν΄ μ 체 λ¨μ΄λ€μ λν΄ normalize νλ€.
4. Optimization
μ΅μ’ μ μΌλ‘λ, μμμ μ€λͺ λ ν¨μλ€μ μ’ ν©νμ¬ μ΅μ ννλ€.
μ μμμ, λͺ©μ ν¨μλ₯Ό μ΅μννλ π½, μ¦ u μ vλ₯Ό μ°Ύλλ€.
μ΄ κ³Όμ μμ λ―ΈλΆ κ³Όμ μ νμ΄νΈλ³΄λλ₯Ό ν΅ν΄ μ§μ μ€λͺ ν΄μ£Όμλλ°, λλ μ¬μ§λ§ 첨λΆνκ³ λμ΄κ°κ² λ€. κ·Έλ₯ λ―ΈλΆνλκ±°λ€.
μ΅μ’ κ²°κ³Όλ‘ π½λ₯Ό μ°ΎμΌλ©΄ Vκ°μ λ¨μ΄κ° μ‘΄μ¬νκ³ , π½κ° d-dimension vectorμΌ λ,
word vectorλ u, vλ₯Ό ν¬ν¨νλ―λ‘ 2dV μ°¨μμ κ°λλ€.
μ΄λ λ―, μ΄λ² λ¨μμμλ λ¨μ΄λ₯Ό κΈ°λ³Έμ μΌλ‘ νννλ λ°©μκ³Ό,
word2vec νλ μμν¬μ ꡬμ±μ κ΄ν΄ μμ보μλ€.
'π μ€ν°λ > CS224N' μΉ΄ν κ³ λ¦¬μ λ€λ₯Έ κΈ
[CS224N] 6, 7, 8. RNN, LSTM, Seq2seq, Attention & Transformers (1) | 2023.12.30 |
---|---|
[CS224N] 5. Language Models and Recurrent Neural Networks (2) | 2023.11.20 |
[CS224N] 4. Syntactic Structure and Dependency Parsing (0) | 2023.11.18 |
[CS224N] 3. Natural Language Processing with Deep Learning (1) | 2023.11.14 |
[CS224N] 2. Neural Classifiers (0) | 2023.08.02 |