๐Ÿ“š ์Šคํ„ฐ๋””/NLP

๐Ÿ“š ์Šคํ„ฐ๋””/NLP

[Word2Vec์— ๊ด€ํ•˜์—ฌ] - CBOW, Skip-gram

์ง€๋‚œ CS224N ๊ฐ•์˜๋ฅผ ์ˆ˜๊ฐ•ํ•˜๊ณ , Word2Vec์— ๊ด€ํ•ด ์กฐ๊ธˆ ๋” ๊ฐœ๋…์„ ํ™•๋ฆฝํ•˜๊ณ ์ž ๊ณต๋ถ€ํ•˜๊ฒŒ ๋˜์—ˆ๋‹ค. ์ด๋ฒˆ ๋ธ”๋กœ๊ทธ๋Š” ์œ„ํ‚ค๋…์Šค ๋ฅผ ์ฐธ๊ณ ํ•˜์—ฌ ๋งŒ๋“ค์—ˆ๋‹ค. Word2Vec word2vec์€ word vector๋“ค์˜ ํ•™์Šต์„ ์œ„ํ•ด ๋งŒ๋“ค์–ด์ง„ ํ”„๋ ˆ์ž„์›Œํฌ์ด๋‹ค. ํ•ด๋‹น ํ”„๋ ˆ์ž„์›Œํฌ์˜ ํ•ต์‹ฌ์€ text๋ฅผ ์ปดํ“จํ„ฐ๊ฐ€ ์ธ์‹ํ•  ์ˆ˜ ์žˆ๋„๋ก ์ˆซ์ž ํ˜•ํƒœ์˜ vector ๋˜๋Š” ํ–‰๋ ฌ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ์ด๋Š” ๋Œ€๋ถ€๋ถ„ ๋Œ€ํ‘œ์ ์œผ๋กœ ๋‹ค์Œ ๋‘ ๊ฐ€์ง€ ๊ณผ์ •์œผ๋กœ ์ด๋ฃจ์–ด์ง„๋‹ค: One Hot Encoding (Sparse representation) Word Embedding (Dense representation) One Hot Encoding์€ ๋‹จ์–ด ๋ฒกํ„ฐ๊ฐ€ 0 ๋˜๋Š” 1์˜ ๊ฐ’์œผ๋กœ ๊ตฌ์„ฑ๋˜์–ด ๊ณผ์ •์ด ๋‹จ์ˆœํ•˜๋‹ค๋Š” ์žฅ์ ์ด ์žˆ์ง€๋งŒ, ํฐ ์ฐจ์›์ด ํ•„์š”ํ•˜๋‹ค๋Š” ์ ๊ณผ, ๋‹จ์–ด ๊ด€๊ณ„..

๐Ÿ“š ์Šคํ„ฐ๋””/NLP

[NLP-์Šคํ„ฐ๋””] RNN์— ๊ด€ํ•˜์—ฌ

์š”์ฆ˜ NLP์™€ ์ „๋ฐ˜์ ์ธ ๋”ฅ๋Ÿฌ๋‹์— ๋Œ€ํ•œ ๊ณต๋ถ€๋ฅผ ํ•˜๋Š” ์ค‘์ด๋‹ค. Transformer ๋ชจ๋ธ์ด ๋„ˆ๋ฌด ์œ ๋ช…ํ•ด์„œ, ์–ด์ฉŒ๋‹ค ๋ณด๋‹ˆ Transformer์˜ attention ๋ฉ”์ปค๋‹ˆ์ฆ˜์ด ์‚ฌ์šฉ๋œ ๋ชจ๋ธ๋“ค๋ถ€ํ„ฐ ๊ณต๋ถ€ํ•˜๊ฒŒ ๋๋Š”๋ฐ, ๋…ผ๋ฌธ์—์„œ ์ด์ „ ๋ชจ๋ธ๋“ค์— ๋Œ€ํ•œ ์ง€์‹์ด ๋งŽ์ด ์“ฐ์ด๋Š” ๊ฒƒ์„ ๋ณด๊ณ  ์•„์˜ˆ ์˜ค๋ž˜์ „ ๋ชจ๋ธ๋ถ€ํ„ฐ ๊ณต๋ถ€ํ•ด๋ณด๊ณ ์ž ํ•œ๋‹ค. (์‚ฌ์‹ค hidden state๊ณผ back propagation ๋“ฑ์— ๊ด€ํ•œ ์ •ํ™•ํ•œ ์ง€์‹์ด ์—†์–ด์„œ, ์ด ๋ถ€๋ถ„์— ๋Œ€ํ•œ ๊ฐœ๋…์„ ์žก๊ณ  ๊ฐ€์•ผ๊ฒ ๋‹ค๊ณ  ์ƒ๊ฐํ–ˆ๋‹ค.) ๊ทธ๋ฆฌํ•˜์—ฌ ์ด๋ฒˆ์—๋Š” RNN์˜ ๊ฐœ๋…์„ ์ง‘์ค‘ํ•ด์„œ ๋‹ค๋ค„๋ณด๊ณ ์ž ํ•œ๋‹ค. ์‚ฌ์‹ค LSTM ๋…ผ๋ฌธ์„ ๋ดค๋Š”๋ฐ ์ •๋ง ๋ง๋„ ์•ˆ๋˜๋Š” ์ˆ˜์‹๋“ค์ด ๋งŽ์•˜๊ณ , ์ดํ•ดํ•˜๊ธฐ๊ฐ€ ๋„ˆ์–ด๋ฌด ์–ด๋ ค์›Œ์„œ ๊ณต๋ถ€ํ•ด์•ผ ๊ฒ ๋‹ค๊ณ  ์ƒ๊ฐํ–ˆ๋‹ค... ์ฐธ๊ณ : [๋ฐ”๋žŒ๋Œ์ด/๋”ฅ๋Ÿฌ๋‹] RNN(Recurrent Neural Networ..

๐Ÿ“š ์Šคํ„ฐ๋””/NLP

[ํ…์ŠคํŠธ๋งˆ์ด๋‹] 2-2. ๋ฌธ์„œ ์œ ์‚ฌ๋„ - ์Šคํƒ€๋ฒ…์Šค ๋„ค์ด๋ฒ„ ๋ฌธ์„œ ์œ ์‚ฌ๋„ ๊ตฌํ•˜๊ธฐ

์ง€๋‚œ๋ฒˆ์— ๋ฐฐ์šด BoW, DTM, TF-IDF, ์œ ํด๋ฆฌ๋””์•ˆ ์œ ์‚ฌ๋„, ์ฝ”์‚ฌ์ธ ์œ ์‚ฌ๋„๋ฅผ ํ™œ์šฉํ•˜์—ฌ ์ง์ ‘ ํฌ๋กค๋งํ•œ '์Šคํƒ€๋ฒ…์Šค' ๊ด€๋ จ ๊ธฐ์‚ฌ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ๋ฌธ์„œ ์œ ์‚ฌ๋„๋ฅผ ๊ตฌํ•˜๋Š” ์‹ค์Šต์„ ์ง„ํ–‰ํ•ด ๋ณด์•˜๋‹ค. ์ž์„ธํ•œ ์ฝ”๋“œ๋“ค์€ ๊นƒํ—ˆ๋ธŒ๋ฅผ ์ฐธ๊ณ ํ•˜๊ธธ ๋ฐ”๋ž€๋‹ค. 1. ๋ฐ์ดํ„ฐ ํ™•์ธ ๋ฐ ์ „์ฒ˜๋ฆฌ ๋ฐ์ดํ„ฐ๋ฅผ df๋ผ๋Š” ๋ณ€์ˆ˜์— ์ €์žฅํ•˜๊ณ  ํ™•์ธํ•ด ๋ณด์•˜๋‹ค. df.head() ์ œ๋ชฉ ์–ธ๋ก ์‚ฌ ๋‚ ์งœ URL ๋„ค์ด๋ฒ„๋‰ด์Šค_URL ์˜ค๋Š˜(1/1) ์ฝ”์ŠคํŠธ์ฝ” ์ •์ƒ์˜์—…, ์ง€์ ๋ณ„ 1์›” ํœด๋ฌด์ผ·์˜์—…์‹œ๊ฐ„ 'ํ™•์ธํ•˜์„ธ์š”' ํ•€ํฌ์ธํŠธ๋‰ด์Šค 2023.01.01. http://www.pinpointnews.co.kr/news/articleView... NaN ํ˜ธ๋ž‘์ด ๊ฐ€๊ณ  ๊ฒ€์€ ํ† ๋ผ ์˜จ๋‹ค…์œ ํ†ต๊ฐ€ ‘ํ† ๋ผ ๋งˆ์ผ€ํŒ…’ ํ™œ๋ฐœ ์ธ๋”๋‰ด์Šค 2023.01.01. https://www.inthenews.co.kr..

๐Ÿ“š ์Šคํ„ฐ๋””/NLP

[ํ…์ŠคํŠธ๋งˆ์ด๋‹] 2-1. ํ…์ŠคํŠธ ํ‘œํ˜„๊ณผ ๋ฌธ์„œ ์œ ์‚ฌ๋„

ํ…์ŠคํŠธ๋งˆ์ด๋‹ ์Šคํ„ฐ๋”” ๋‘ ๋ฒˆ์งธ ์ฃผ์ฐจ์—๋Š” BoW์™€ N-gram, TF-IDF, Euclidian Distance์™€ Cosine Similarity ๋“ฑ์— ๊ด€ํ•ด ํ•™์Šตํ–ˆ๋‹ค. ์ž์„ธํ•œ ์ฝ”๋“œ๋“ค์€ ๊นƒํ—ˆ๋ธŒ ์ฐธ๊ณ ํ•˜๊ธธ ๋ฐ”๋ž€๋‹ค. 1. ํ…์ŠคํŠธ๋ฅผ ์ˆซ์ž๋กœ ํ‘œํ˜„ํ•˜๋Š” ๋ฐฉ๋ฒ• ํ…์Šคํ‹€์„ ์ˆซ์ž๋กœ ํ‘œํ˜„ํ•˜๋Š” ๋ฐฉ๋ฒ•์—๋Š” ๊ตญ์†Œ ํ‘œํ˜„๊ณผ ์—ฐ์† ํ‘œํ˜„์ด ์žˆ๋‹ค. ๊ตญ์†Œ ํ‘œํ˜„์—๋Š” BoW, N-gram, One-hot Vector์ด ํฌํ•จ๋˜๋ฉฐ, ์—ฐ์† ํ‘œํ˜„์—๋Š” LSA, Word2Vec, Glove ๋“ฑ์ด ํฌํ•จ๋œ๋‹ค. ์ด ์ค‘, ๊ตญ์†Œ ํ‘œํ˜„์ธ BoW์— ๋Œ€ํ•ด ์ค‘์ ์ ์œผ๋กœ ํ•™์Šตํ–ˆ๋‹ค. 2. Bow BoW๋ž€, Bag of Words์˜ ์•ฝ์ž๋กœ, ๋‹จ์–ด์˜ ๋“ฑ์žฅ ์ˆœ์„œ๋ฅผ ๊ณ ๋ คํ•˜์ง€ ์•Š๋Š” ๋นˆ๋„์ˆ˜ ๊ธฐ๋ฐ˜์˜ ๋‹จ์–ด ํ‘œํ˜„ ๋ฐฉ๋ฒ•์ด๋‹ค. BoW๋Š” ๋‹ค์Œ ๋‘ ๊ฐ€์ง€ ํŠน์ง•์„ ์ง€๋‹Œ๋‹ค: ๊ฐ ๋‹จ์–ด์— ๊ณ ์œ ํ•œ ์ •์ˆ˜ ์ธ๋ฑ์Šค๋ฅผ ๋ถ€์—ฌ..

์žฅ์˜์ค€
'๐Ÿ“š ์Šคํ„ฐ๋””/NLP' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๊ธ€ ๋ชฉ๋ก