ν μ€νΈλ§μ΄λ μ€ν°λ λ λ²μ§Έ μ£Όμ°¨μλ BoWμ N-gram, TF-IDF, Euclidian Distanceμ Cosine Similarity λ±μ κ΄ν΄ νμ΅νλ€.
μμΈν μ½λλ€μ κΉνλΈ μ°Έκ³ νκΈΈ λ°λλ€.
1. ν μ€νΈλ₯Ό μ«μλ‘ νννλ λ°©λ²
ν μ€νμ μ«μλ‘ νννλ λ°©λ²μλ κ΅μ ννκ³Ό μ°μ ννμ΄ μλ€.
κ΅μ ννμλ BoW, N-gram, One-hot Vectorμ΄ ν¬ν¨λλ©°, μ°μ ννμλ LSA, Word2Vec, Glove λ±μ΄ ν¬ν¨λλ€.
μ΄ μ€, κ΅μ ννμΈ BoWμ λν΄ μ€μ μ μΌλ‘ νμ΅νλ€.
2. Bow
BoWλ, Bag of Wordsμ μ½μλ‘, λ¨μ΄μ λ±μ₯ μμλ₯Ό κ³ λ €νμ§ μλ λΉλμ κΈ°λ°μ λ¨μ΄ νν λ°©λ²μ΄λ€.
BoWλ λ€μ λ κ°μ§ νΉμ§μ μ§λλ€:
- κ° λ¨μ΄μ κ³ μ ν μ μ μΈλ±μ€λ₯Ό λΆμ¬νλ€.
- κ° μΈλ±μ€μ μμΉμ λ¨μ΄ ν ν°μ λ±μ₯ νμλ₯Ό κΈ°λ‘ν 벑ν°λ₯Ό λ§λ λ€.
λ€μκ³Ό κ°μ΄ μμλ₯Ό λ€μ΄ 보μ:
text = 'μ΄ν΄ μμ ν μ€νΈλ§μ΄λ μ λ§ μ λ§ μ¬λ―Έμμ΄μ' μ΄λΌκ³ νμ.
κ° λ¨μ΄μ κ³ μ μ μ μΈλ±μ€λ₯Ό λΆμ¬ν΄λ³΄μ:
Bagμ λ΄κ³ κ° μΈλ±μ€μ μμΉμ λ¨μ΄ ν ν°μ λ±μ₯ νμλ₯Ό μμ±νλ©΄ λ€μκ³Ό κ°λ€:
μ΄λ κ², μΆμΆλ λ¨μ΄λ€λ‘ λ€μκ³Ό κ°μ 벑ν°λ₯Ό λ§λ€ μ μλ€:
μ΄λ¬ν μμ μ΄ BoWλ₯Ό λ§λ κ²μ΄λ€.
μ΄λ κ² μλ‘ λ€λ₯Έ λ¬Έμλ€μ BoWλ₯Ό κ²°ν©ν΄μ λ§λ κ²μ DTMμ΄λΌκ³ ν©λλ€.
3. DTM
λ¬Έμ λ¨μ΄ νλ ¬(Document-Term Matrix, DTM)μ΄λ λ€μμ λ¬Έμμμ λ±μ₯νλ κ° λ¨μ΄λ€μ λΉλλ₯Ό νλ ¬λ‘ ννν κ²μ λ§νλ€.
μ½κ² μκ°νλ©΄ κ° λ¬Έμμ λν BoWλ₯Ό νλμ νλ ¬λ‘ λ§λ κ²μΌλ‘ μκ°ν μ μλ€.
λ€μκ³Ό κ°μ μλ₯Ό λ€μ΄λ³΄μ:
- text1 : λ¨Ήκ³ μΆμ μ¬κ³Ό
- text2 : λ¨Ήκ³ μΆμ λ°λλ
- text3 : κΈΈκ³ λ Έλ λ°λλ λ°λλ
- text4 : μ λ κ³ΌμΌμ΄ μ’μμ
μ λ¬Έμ₯λ€μ λμ΄μ°κΈ° λ¨μλ‘ ν ν°νλ₯Ό μ§ννκ³ , λ¬Έμ λ¨μ΄ νλ ¬λ‘ νννλ©΄ λ€μκ³Ό κ°λ€:
text1 | 0 | 0 | 0 | 1 | 0 | 1 | 1 | 0 | 0 |
text2 | 0 | 0 | 0 | 1 | 1 | 0 | 1 | 0 | 0 |
text3 | 0 | 1 | 1 | 0 | 2 | 0 | 0 | 0 | 0 |
text4 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 1 |
μ΄λ κ² κ° λ¬Έμμμ λ±μ₯ν λ¨μ΄μ λΉλλ₯Ό νλ ¬μ κ°μΌλ‘ νκΈ°νλ€.
DTMμ λ¬Έμλ€μ μλ‘ λΉκ΅ν μ μλλ‘ μμΉνν μ μλ€λ μ μμ μμλ₯Ό κ°λλ€.
κ·Έλ¬λ μ΄λ° DTMμλ λ¬Έμμ λ§μ΄ λ±μ₯νλ λ¨μ΄κ° λΉμ·νλ©΄ λ λ¬Έμκ° μ μ¬νλ€λ κ²°κ³Όκ° λμ¨λ€λ λ¬Έμ μ μ΄ μλ€. μ΄μ λν΄, λͺ¨λ λ¬Έμμμ λ§μ΄ λ±μ₯νλ λ¨μ΄μ μν₯λ ₯μ μ€μ΄μλ ν΄κ²°λ°©μμ΄ λμ€κ² λμλ€. μ΄ κ°λ μ TF-IDFλΌκ³ νλ€.
4. TF-IDF
TF-IDFλ λ¨μ΄μ λΉλμ μ λ¬Έμ λΉλλ₯Ό μ¬μ©νμ¬ DTM λ΄μ κ° λ¨μ΄λ€λ§λ€ μ€μν μ λλ₯Ό κ°μ€μΉλ‘ μ£Όλ λ°©λ²μ΄λ€. μ΄ λ°©λ²μ μ£Όλ‘ λ¬Έμμ μ μ¬λλ₯Ό ꡬνλ μμ , κ²μ μμ€ν μμ κ²μ κ²°κ³Όμ μ€μλλ₯Ό μ νλ μμ , λ¬Έμ λ΄μμ νΉμ λ¨μ΄μ μ€μλλ₯Ό ꡬνλ μμ λ±μ μ°μΈλ€.
TF-IDFμμ TFλ Term Frequencyμ μ½μλ‘, ν λ¬Έμ λ΄μ λ¨μ΄μ λΉλλ₯Ό λ»νκ³ ,
DFλ Document Frequencyμ μ½μλ‘, μ€μ§ νΉμ λ¨μ΄ tκ° λ±μ₯ν λ¬Έμμ μλ₯Ό λ»νκ³ ,
IDFλ Inverse Document Frequencyμ μ½μλ‘, μ΄λ€ λ¨μ΄κ° λ±μ₯ν λ¬Έμμ λΉλμ μμλ₯Ό λ»νλ€.
IDFμ κ°λ μ λν΄ μ΄ν΄λ³΄μ. μ°μ μμ λ€μκ³Ό κ°λ€:
μ¬κΈ°μ nμ μ΄λ¬Έμμ μμ΄λ€.
μ΄λ λ‘κ·Έλ₯Ό μ·¨ν΄μ£Όλ μ΄μ λ, nμ΄ λ무 컀μ§κ² λ κ²½μ°, κ°μ scaling ν΄μ£ΌκΈ° μν΄ μ¬μ©νλ κ²μ΄λ€.
μ΄λ κ² κ΅¬ν tfμ idfλ₯Ό κ³±ν κ°μ tf-idfλΌκ³ νλ€.
μ΄λ κ² BoWμ κΈ°λ°νμ¬ DTM, TF-IDFμ²λΌ λ¨μ΄λ₯Ό μμΉννλ λ°©λ²μ λν΄ νμ΅νλ€. μ΄λ κ² μμΉνν λ°©λ²μ μ΄μ΄ λ¬Έμμ μ μ¬λλ₯Ό ꡬν΄λ³΄μ. λνμ μΌλ‘ 2κ°μ§ λ°©λ²μ΄ μλ€.
- μ ν΄λ¦¬λμ μ μ¬λ
- λ 벑ν°μ κ±°λ¦¬κ° κ°κΉμΈμλ‘ μ μ¬νλ€.
- μ½μ¬μΈ μ μ¬λ
- λ 벑ν°κ° μ΄λ£¨λ κ°λκ° 0μ κ°κΉμΈμλ‘ μ μ¬νλ€.
μ¬κΈ°μ μ½μ¬μΈ μ μ¬λμ κ΄ν΄ μ€λͺ νμλ©΄, κ³ λ±νκ΅ λ 벑ν°μ λ΄μ μμ μ¬μκ°μ ꡬν λ°©μκ³Ό λΉμ·νκ² κ³μ°λλ€. μμ λ€μκ³Ό κ°λ€:
μ΄λ κ², μ΄λ²μ ν μ€νΈ λ΄μ λ¨μ΄λ€μ μ«μλ‘ ν ν°νμν€λ λ°©μκ³Ό, ν΄λΉ μ«μλ€μ κΈ°λ°μΌλ‘ μ μ¬λλ₯Ό ꡬνλ λ°©μμ κ΄ν΄ κ°λ¨νκ² μμ보μλ€.
'π μ€ν°λ > NLP' μΉ΄ν κ³ λ¦¬μ λ€λ₯Έ κΈ
[Word2Vecμ κ΄νμ¬] - CBOW, Skip-gram (0) | 2023.07.25 |
---|---|
[NLP-μ€ν°λ] RNNμ κ΄νμ¬ (1) | 2023.06.29 |
[ν μ€νΈλ§μ΄λ] 2-2. λ¬Έμ μ μ¬λ - μ€νλ² μ€ λ€μ΄λ² λ¬Έμ μ μ¬λ ꡬνκΈ° (0) | 2023.06.19 |
[ν μ€νΈλ§μ΄λ] 1. ν μ€νΈ λΆμ (0) | 2023.06.17 |