분류 전체보기

📚 스터디/NLP

[텍스트마이닝] 2-1. 텍스트 표현과 문서 유사도

텍스트마이닝 스터디 두 번째 주차에는 BoW와 N-gram, TF-IDF, Euclidian Distance와 Cosine Similarity 등에 관해 학습했다. 자세한 코드들은 깃허브 참고하길 바란다. 1. 텍스트를 숫자로 표현하는 방법 텍스틀을 숫자로 표현하는 방법에는 국소 표현과 연속 표현이 있다. 국소 표현에는 BoW, N-gram, One-hot Vector이 포함되며, 연속 표현에는 LSA, Word2Vec, Glove 등이 포함된다. 이 중, 국소 표현인 BoW에 대해 중점적으로 학습했다. 2. Bow BoW란, Bag of Words의 약자로, 단어의 등장 순서를 고려하지 않는 빈도수 기반의 단어 표현 방법이다. BoW는 다음 두 가지 특징을 지닌다: 각 단어에 고유한 정수 인덱스를 부여..

📚 스터디/NLP

[텍스트마이닝] 1. 텍스트 분석

이번에 NLP 중 텍스트마이닝에 관한 자료들을 가지고 스터디를 해보게 되었다. 첫 주차에는 간단하게 텍스트 분석에 관해 알아보고, 코드를 작성해보았다. 자세한 코드들은 깃허브 참고하길 바란다. 1. 텍스트마이닝, 텍스트 분석, 자연어 처리의 차이 시작하기에 앞서 위 세 용어들의 차이를 알아보고 시작하자. 텍스트마이닝: 텍스트 데이터를 활용한 모든 작업 텍스트 분석: 좁은 의미의 텍스트(문서)의 특성 파악하는 것 자연어 처리: 텍스트마이닝을 위한 텍스트 처리 작업 2. 텍스트 분석의 종류 텍스트 분석의 종류는 다음과 같다: 텍스트 선별: 원하는 정보를 가진 텍스트만 추출 텍스트 정보 추출: 한 텍스트 내에서 원하는 정보를 추출 텍스트 주제 찾기: 빈도 분석, 토픽 모델링 등을 활용 텍스트 분류: Logis..

📚 논문

Attention is All You Need

BackgroundSeq2Seq 모델Encoder와 Decoder를 각각 RNN으로 구성하는 방식입니다.동작원리‘나는’, ‘호두를’, ‘사랑해’라는 3개의 토큰들을 순차적으로 LSTM 셀에 넣으면 , hidden state를 하나씩 출력합니다.이렇게 토큰들의 hidden state들이 출력되면, 마지막 hidden state는 정보를 압축한 vector가 되고, 이를 Context Vector 라고 칭합니다.Context Vector를 통해 이후 token들을 넣었을 때 다음 token 예측을 위한 hidden state가 출력됩니다.문제점Sequence가 길어지는 경우에는 Gradient Vanishing 문제가 발생하여 Context Vector에 앞 순서 token들의 정보가 소실되는 문제가 발생했..

장영준
'분류 전체보기' 카테고리의 글 목록 (9 Page)