얼마 전, 텍스트마이닝 공부를 하면서 네이버 기사들을 크롤링하여 군집화하는 작업을 진행해보았다.해당 작업에서는 코사인 유사도를 구해서 특정 threshold (ex. 0.5)를 기준으로, 해당 threshold를 넘으면 같은 기사로 분류하고,아니면 다른 기사로 분류하는 작업을 진행했었다. (https://yjoonjang.tistory.com/7)이런 실습은 정말 재미있었음과 동시에, '실제로도 이렇게 간단하게 cosine similarity만을 고려해서 군집화 할까?' 라는 의문을 제기했다 .이에 리서치 해보던 중 이 논문을 읽게 되었는데, 내용이 상당히 흥미로웠다.이번에도 자세히 읽었으니, 읽은 흔적을 첨부해본다.Abstract뉴스 기사에 있어서, 기사의 모든 정보를 무분별하게 인코딩하는 단순 모델..
이번에 NLP를 주제로 작은 토이 프로젝트를 진행했는데, 자신의 심리를 작성하면 그것에 공감해 주거나 상담해 주는 챗봇을 만들어봤다. 참고자료: https://wikidocs.net/157001 https://hoit1302.tistory.com/162#[1]kogpt2%EA%B8%B0%EB%B0%98%EC%8B%AC%EB%A6%AC%EC%BC%80%EC%96%B4%EC%B1%97%EB%B4%87 본 프로젝트는 skt의 생성 모델, KoGPT2를 fine-tuning 하여 사용했으며, 데이터셋은 유명한 송영숙 님의 챗봇 데이터셋을 사용했다. 자세한 코드는 깃허브를 참고하면 좋을 것 같다. 1. 데이터 전처리 우선 사용한 데이터를 df에 저장하고 df.head()를 실행해 보면 다음과 같다: 여기서 lab..
요즘 대화형 챗봇에 관심이 많다.그런데 chatGPT와 대화를 해 보았을 때, 내가 좋아하는 것이 뭔지 딱 알려주지 않으면 제대로 파악 못하는 경우가 엄청 많다.이에 대화만으로 나의 선호도를 파악하는 챗봇은 없을까? 관련해서 신박한 알고리즘은 없을까? 에 대해 생각해 보았고, 위 논문을 접하게 됐다. 자세히, 열심히 읽었으니, 읽은 흔적을 첨부해야겠다. (필기 많음 주의)Abstract현존하는 대화형 추천 시스템 (Conversational Recommender Systems. 줄여서 CRS라고 부르더라.)은 대화만으로 전체적인 유저 선호도를 알지 못한다. 선호하는 item이 대화에서 나오지 않는다면, 유저 선호도를 분석하는 것에 있어서 어려움이 있는 것이다.이에 해당 논문은 CLICK을 제안한다. CL..
AbstractNatural language에는 unlabeled text의 데이터 수가 labeled text의 데이터 수보다 훨씬 많다. 해당 사실에 근거하여 OpenAI에서는 다양한 unlabeled text를 활용하여 모델을 generative 하게 pre-train 시킨 GPT 모델을 제시했다. 해당 모델은 이전 모델들보다 훨씬 뛰어난 성능을 보여 그 결과를 증명했다.Introductionunlabeled data로부터 word-level 이상의 정보를 끌어내는 것은 다음과 같은 두 가지의 이유로 어렵다:transfer에 유용한 text 표현을 배우는 것에 어떤한 형태의 최적화 목적 (optimation objectives)가 좋은지 모른다.학습된 표현을 target task에 전달할 가장 좋은..