text clustering

📚 논문

USTORY: Unsupervised Story Discovery from Continuous News Streams via Scalable Thematic Embedding

2023.07.11

얼마 전, 텍스트마이닝 공부를 하면서 네이버 기사들을 크롤링하여 군집화하는 작업을 진행해보았다.해당 작업에서는 코사인 유사도를 구해서 특정 threshold (ex. 0.5)를 기준으로, 해당 threshold를 넘으면 같은 기사로 분류하고,아니면 다른 기사로 분류하는 작업을 진행했었다. (https://yjoonjang.tistory.com/7)이런 실습은 정말 재미있었음과 동시에, '실제로도 이렇게 간단하게 cosine similarity만을 고려해서 군집화 할까?' 라는 의문을 제기했다 .이에 리서치 해보던 중 이 논문을 읽게 되었는데, 내용이 상당히 흥미로웠다.이번에도 자세히 읽었으니, 읽은 흔적을 첨부해본다.Abstract뉴스 기사에 있어서, 기사의 모든 정보를 무분별하게 인코딩하는 단순 모델..

USTORY: Unsupervised Story Discovery from Continuous News Streams via Scalable Thematic Embedding

티스토리툴바