์ผ๋ง ์ , ํ ์คํธ๋ง์ด๋ ๊ณต๋ถ๋ฅผ ํ๋ฉด์ ๋ค์ด๋ฒ ๊ธฐ์ฌ๋ค์ ํฌ๋กค๋งํ์ฌ ๊ตฐ์งํํ๋ ์์ ์ ์งํํด๋ณด์๋ค.
ํด๋น ์์ ์์๋ ์ฝ์ฌ์ธ ์ ์ฌ๋๋ฅผ ๊ตฌํด์ ํน์ threshold (ex. 0.5)๋ฅผ ๊ธฐ์ค์ผ๋ก, ํด๋น threshold๋ฅผ ๋์ผ๋ฉด ๊ฐ์ ๊ธฐ์ฌ๋ก ๋ถ๋ฅํ๊ณ ,
์๋๋ฉด ๋ค๋ฅธ ๊ธฐ์ฌ๋ก ๋ถ๋ฅํ๋ ์์ ์ ์งํํ์๋ค. (https://yjoonjang.tistory.com/7)
์ด๋ฐ ์ค์ต์ ์ ๋ง ์ฌ๋ฏธ์์์๊ณผ ๋์์, '์ค์ ๋ก๋ ์ด๋ ๊ฒ ๊ฐ๋จํ๊ฒ cosine similarity๋ง์ ๊ณ ๋ คํด์ ๊ตฐ์งํ ํ ๊น?' ๋ผ๋ ์๋ฌธ์ ์ ๊ธฐํ๋ค .
์ด์ ๋ฆฌ์์น ํด๋ณด๋ ์ค ์ด ๋ ผ๋ฌธ์ ์ฝ๊ฒ ๋์๋๋ฐ, ๋ด์ฉ์ด ์๋นํ ํฅ๋ฏธ๋ก์ ๋ค.
์ด๋ฒ์๋ ์์ธํ ์ฝ์์ผ๋, ์ฝ์ ํ์ ์ ์ฒจ๋ถํด๋ณธ๋ค.
Abstract
๋ด์ค ๊ธฐ์ฌ์ ์์ด์, ๊ธฐ์ฌ์ ๋ชจ๋ ์ ๋ณด๋ฅผ ๋ฌด๋ถ๋ณํ๊ฒ ์ธ์ฝ๋ฉํ๋ ๋จ์ ๋ชจ๋ธ์ ์ ์ฉ์ ํ ์คํธ๊ฐ ํ๋ถํ๊ณ , ์์๊ฐ๊ฐ ๋ณํํ๋ ๋ด์ค ์คํธ๋ฆผ ์ฒ๋ฆฌ ์ ๋นํจ์จ์ ์ธ ๋ถ๋ถ์ ๋ณด์๋ค.
์ด์ USTORY๋ผ๋ ํ๋ ์์ํฌ๋ฅผ ๊ฐ๋ฐํ์ฌ ์๋ก์ด thematic embedding๊ณผ pretrained sentence encoder๋ก ๊ณต์ ๋ temporal theme (์๊ฐ์ ์ ๋ณด)๋ฅผ ๊ณ ๋ คํ์ฌ ๋์ ์ผ๋ก article๊ณผ story๋ฅผ ๋ํ๋ด๊ฒ ํ๋ค.
ํด๋น ํ๋ ์์ํฌ๋ ์๊ฐ, ํ ๋ง๋ฅผ ๊ณ ๋ คํ ๋์ embedding๊ณผ ์๋ก์์ ๊ณ ๋ คํ ์ ์์ clustering์ ์ฌ์ฉํ์ฌ ์ค์ ๋ด์ค ๋ฐ์ดํฐ์ ์ผ๋ก ์ข์ ํผํฌ๋จผ์ค๋ฅผ ๋ณด์ฌ ์ฃผ์๋ค.
Introduction
USTORY๋ ์ธ๊ฐ ์ฃผ์ ์์ด๋ ์ค์๊ฐ ๋ด์ค ํ๋ ์ด์ ์๋น์ค์ ์ถ์ฒ, ์์ฝ, ์ด๋ฒคํธ ๊ฐ์ง์ ๊ฐ์ task๋ฅผ ์ํํ ์ ์๋ค.
๋ณธ๋ ์ฐ๊ตฌ๋ค์์๋ LLM ๊ธฐ๋ฐ์ PSE๋ฅผ ์ฌ์ฉํ์ฌ ๋ฌธ์ฅ์ building block์ผ๋ก ์ฌ์ฉํด article์ embed ํ๋ค.
์ด๋ article์ ๋ฌธ์ฅ๋ง๋ค single article representation์ผ๋ก ๋ฐ๊พธ๋ indiscriminative embedding ๋ฐฉ์์ ์ฌ์ฉํ๋๋ฐ, ๋ง์ ๋ฌธ์ฅ๋ค์ ๋จ ํ๋์ ๋ํ์ ์ธ ๋ฌธ์ฅ์ผ๋ก ๊ฐ์ฃผํ๋ค๋ณด๋ content์ ํ ๋ง๋ฅผ ์ดํดํ๋๋ฐ ๋น์ฐํ ํ๊ณ๊ฐ ์๊ธธ ์๋ฐ์ ์์๋ค. ์ด์ story discovery์ ํผํฌ๋จผ์ค๊ฐ ์ ํ๋์๋ค.
์ด์ ๋ํ ํด๊ฒฐ๋ฐฉ์์ผ๋ก thematic embedding๊ณผ PSE๋ฅผ ๊ฒฐํฉํ ๋ฐฉ์์ด ์ ์๋๋๋ฐ, ์ด๋ ์ต์ ๋ด์ค stream์์ ์ค์๊ฐ์ผ๋ก ํฌ์ฐฉ๋ theme์ ๊ณต์ ํ์ฌ ๋์ ์ผ๋ก article์ story๋ฅผ embed ํ๋ ๋ฐฉ์์ด๋ค.
ํด๋น ๋ฐฉ์์ story๊ฐ ๋น์ทํ ๋ฌธ์ฅ๋ค๋ง ๊ฐ๋ณํ๊ณ , ๋๋ ทํ story๋ค๋ก ๊ตฐ์งํํ์ฌ ์์ embedding๋ค๋ณด๋ค ๋ ์ข์ article ์ ์ฌ๋๋ฅผ ๋ณด์ฌ์ฃผ์๋ค.
ํด๋น ๊ณผ์ ์์ ๋ค์๊ณผ ๊ฐ์ ๋ฌธ์ ๋ค์ ํด๊ฒฐํด์ผ ํ๋ค:
- story์ ํน๋ณํ ์ฃผ์ ๋ ์๋์ ์ผ๋ก ์๋ณ๋๊ณ , ํญ์ ์ต์ ๋ฒ์ ์ด story๋ค์ด ์ ์ง๋ผ์ผ ํ๋ค.
- ๊ธฐ์ฌ ๋ฑ์ ์ธ์ ๋ ์ฌ๋ผ์ง ์ ์์ผ๋ฏ๋ก, ํญ์ ๊ตฐ์งํํ ์ ์๋ ์ ์์ ์ธ ๋ฉ์ปค๋์ฆ์ด ํ์ํ๋ค.
- embedding, clustering์ด ํจ์จ์ ์ด๊ณ scalable ํด์ผ ํ๋ค.
USTORY๋ ์ด๋ฌํ ๋ฌธ์ ๋ค์ ๋ค์๊ณผ ๊ฐ์ด ํด๊ฒฐํ๋ค:
- ์๊ฐ์ ์ธ ํ ๋ง๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ์๋ณํ๊ณ ํ ๋ง์ ์๊ฐ์ ๊ด๋ จ์ฑ์ ๊ณ ๋ คํ์ฌ article๊ณผ story๋ฅผ embeddingํ๋ค.
- ๊ธฐ์ฌ๋ฅผ ๊ธฐ์กด์ ์ด์ผ๊ธฐ์ ํ ๋นํ๊ฑฐ๋ ์ ์ด์ผ๊ธฐ์ ์์์ ์ํด article-story ์ ๋ขฐ๋ ์ ์๋ฅผ ์ถ์ ํ๋ค.
์ด ๊ณผ์ ์์ USTORY๋ ํ ๋น๋ ๊ธฐ์ฌ๋ฅผ ๊ฐ๋จํ๊ฒ ์ฒ๋ฆฌํ๊ธฐ ์ํด ์ต์ํ์ ์ ๋ณด๋ง ์์ฝํ์ฌ ๊ด๋ฆฌํ๋ค.
Thematic Embedding
1. Motivation
๊ธฐ์กด word-level๊ณผ entire article-level granularity (article์ ์ผ๋ง๋ ์ธ๋ถ์ ์ผ๋ก ๋ถ์/๊ตฐ์งํํ๋์ง ๋ํ๋ด๋ ์ฒ๋)๋ฅผ ์ฌ์ฉํ๋ฉด story๋ฅผ ๋ํ๋ด๋ ์๋ฏธ๋ฅผ ์ป์ด๋ด๊ธฐ ๋๋ฌด ์ด๋ ต๋ค.
๊ทธ๋ฌ๋ sentence-level์ ์ฌ์ฉํ๋ฉด ์๋ฏธ์ ๋ชจํธํจ์ ๊ท ํ ์๊ฒ ๋ง์ถ๊ณ , ์ ํ์ LLM input์ ์ ํ์ ๋ฐ๋๋ค.
ํด๋น ๋ ผ๋ฌธ์์๋ pre-trained ๋ฌธ์ฅ ์ธ์ฝ๋๋ก ๊ธฐ์ฌ๋ฅผ ์๋ฒ ๋ฉํ ๋, ๋ฌธ์ฅ์ ์์ ๊ตฌ์ฑ ์์ (building block)๋ก ๋ณด๊ณ ํ์ฉํ๋ค.
๋, ๊ธด ๋ฌธ์ฅ์ embedding ํ๋ ๊ฒฝ์ฐ์ ๋ฒกํฐ๋ฅผ concatํ๊ฑฐ๋ mean-poolingํ์ฌ ๋ํ ์๋ฏธ๋ฅผ ํฌ์ฐฉํ๋ ค๋ ๊ธฐ์กด์ ๋ฐฉ์์ด theme๊ณผ ์ฐ๊ด ์๋ ์ ๋ณด๋ฅผ ์ป์ด๋ด๋ ๊ฒฝ์ฐ๋ ์์๋ค (์๋ ๊ทธ๋ฆผ ์ฐธ์กฐ).
์ด์ USTORY์์๋ PSE์ thematic embedding์ ํจ๊ป ์ฌ์ฉํ๋ฉฐ ํน์ ๋ด์ค stream์์ ๊ธฐ์ฌ์ ์๊ฐ์ theme์ ์๋ณํ์ฌ, ๊ธฐ์ฌ์ ์ด์ผ๊ธฐ๋ฅผ ๋์ ์ผ๋ก embeddingํ๋ค.
2. Temporal Theme Identification
์๊ฐ์ theme์ ์ป๊ธฐ ์ํด, keyword๋ฅผ ์ถ์ถํ๋ ๊ณผ์ ์ ์ฐ์ ๊ฑฐ์น๋ค. ๊ทธ ์ด์ ๋ ๊ฐ๋จํ ํ ํฐํ ๋ฐฉ์์ผ๋ก ํค์๋๋ฅผ ์ถ์ถํ๊ธฐ ์ฝ๊ณ , ๋ค์ํ keyword๋ค์ ์กฐํฉ์ผ๋ก theme์ ๋ช ํํ๊ฒ ๋ํ๋ด๊ธฐ ์ข๊ธฐ ๋๋ฌธ์ด๋ค.
์ดํ์๋ time-decaying ์ ๋ณด๋ฅผ popular-ranking ํจ์์ ๋ฐ์ํจ์ผ๋ก์จ thematic ํค์๋๋ฅผ ์๋ณํ ์ ์๋ค.
์์ ์์์ rec-pop์ด time-decaying ์ ๋ณด์ ๊ด๋ จ๋ ํจ์์ด๊ณ , dist(k,D)๊ฐ score function์ด๋ค.
3. Theme/Time-aware Dynamic Embedding
1. Article Embedding
USTORY๋ theme ์ ์ฌ์ฑ์ weight๋ก ๊ฐ์ง ๋ฌธ์ฅ๋ค์ ๋ชจ์ ๊ธ์ ๋์ ์ผ๋ก ๋ํ๋ธ๋ค. ์ด๋ ๋ฌธ์ฅ์์ ๋ํ๋ ํค์๋์ ์ฃผ๊ธฐ์ ์ค์์ฑ์ ๊ณ ๋ คํ๋ค. ์์ฑ๋ ์์ ๋ค์๊ณผ ๊ฐ๋ค:
2. Story Embedding
์ดํ, ํน์ ๊ธฐ์ฌ๋ฅผ ๋์์ผ๋ก ํ ๋, ๊ทธ ๊ธฐ์ฌ์ ๊ด๋ จ๋ ๋ค๋ฅธ ๊ธฐ์ฌ๋ค์ ์๋ฒ ๋ฉ ํํ์ ์ฌ์ฉํ์ฌ ์ด์ผ๊ธฐ๋ฅผ ํํํ๋ค.
์ด๋, ๊ฐ๊ฐ์ ๊ธฐ์ฌ๋ ๋์ ๊ธฐ์ฌ์์ ์๊ฐ์ ์ธ ๊ด๋ จ์ฑ์ ๋ฐ๋ผ ๊ฐ์ค์น๋ฅผ ๋ถ์ฌํ๋ค. ์ด ๊ฐ์ค์น๋ฅผ ๊ณ ๋ คํ์ฌ ๋ค๋ฅธ ๊ธฐ์ฌ๋ค์ ์๋ฒ ๋ฉ์ poolingํ์ฌ ์ด์ผ๊ธฐ๋ฅผ ํํํ๊ฒ ๋๋ค. ๊ด๋ จ๋ ์์ ๋ค์๊ณผ ๊ฐ๋ค:
์ต์ข ์ ์ผ๋ก ์๊ฐํํ ๊ทธ๋ฆผ์ ๋ค์๊ณผ ๊ฐ๋ค:
์ ๋ฆฌํ๋ฉด,
- ์คํ ๋ฆฌ๊ฐ ์ฃผ์ด์ง๊ณ article์ embeddingํ๋ ๊ฒฝ์ฐ, theme-relevant ๋ฌธ์ฅ๋ค์ด ์ฃผ๊ฐ ๋๋ค.
- article์ด ์ฃผ์ด์ง๊ณ ์คํ ๋ฆฌ๋ฅผ embeddingํ๋ ๊ฒฝ์ฐ, ์คํ ๋ฆฌ์ article ์ค ์ฃผ์ด์ง article๊ณผ ๊ฐ์ฅ ๊ฐ๊น์ด article์ด ํด๋น ์คํ ๋ฆฌ๋ฅผ ๋ํํ๊ฒ ๋๋ค.
Novelty-Aware Adaptive Clustering
Overview
์ด ์ฑํฐ์์ ์๊ธฐํ๋ ๋ด์ฉ์ ๋ค์๊ณผ ๊ฐ์ด ์์ฝ ๊ฐ๋ฅํ๋ค:
- ํ์กดํ๋ story๊ฐ ์์ผ๋ฉด, ์ article์ ๊ฐ๊ฐ์ theme์ผ๋ก ํํ๋๊ณ , seed story๋ค์ ์ article๋ก๋ถํฐ cluster-center initialize๋๋ค.
- ํ ๋น๋์ง ์์ ๊ธฐ์ฌ๋ค์ ๊ธฐ์กด ์ด์ผ๊ธฐ ์ค ํ๋์ ์ ํ ๋น๋ ์ ์๋์ง ํ์ธ๋๋ค.
์ดํ article-story์์ด ๋์ ์ผ๋ก embedding๋๊ณ , ํ ๋ง์ ์ ์ฌ๋ ๊ธฐ๋ฐํ์ฌ ์ ๋ขฐ๋ ์ ์๊ฐ ๊ณ์ฐ๋๋ค. - ๋จ์ ํ ๋น๋์ง ์์ article๋ค์ด ์ story๋ฅผ ํ์ฑํ๋๋ก ์ story๋ฅผ ๋ฐ๊ตดํ๋ค.
Novel Story Discovery
Initial Article Embedding
ํ์กดํ๋ story๊ฐ ์์ผ๋ฉด, article๋ณ theme์ thematic embedding์ ํตํด ์ด๋ฃจ์ด์ง๋ค.
Seed Stories Discovery
thematic embedding์ cluster center initialization ๊ธฐ์ ์ด ๋ํด์ ธ ํ ๋น๋์ง ์์ article๋ค์ ํํ์ด ์๋ก์ด seed story๋ค์ ์ฐพ๋ ๊ฒ์ ์ฌ์ฉ๋๋ค. USTORY๋ ์ด ๊ณผ์ ์์ ๊ด์ฑ์ด ๊ฐ์ฅ ๋ฎ์ seed center์ ์ฐพ์ ๊ฐ์ฅ ๋ ํนํ seed story์ ์ฃผ์ ๋ฅผ ์ฐพ๋๋ค.
Confidence-based Story Assignment
ํ์กดํ๋ story๊ฐ ์์ ๊ฒฝ์ฐ, ํ ๋น๋์ง ์์ article๋ค์ story๋ค ์ค ํ๋์ ํ ๋น๋๊ธฐ ์ํด ํ๊ฐ๋๋ค.
์ด๋ฅผ ์ํด ํ์กดํ๋ story๋ค์ ์๊ฐ์ theme๋ค์ด ์ ๋ฐ์ดํธ ๋๊ณ , ์คํ ๋ฆฌ์ ํ ๋น๋ article๋ค์ thematic ์ ์ฌ๋๋ฅผ ์ฐพ์ article-story confidence score์ ์ป๋๋ค.
Article-Story Thematic Similarity
USTORY๋ article๊ณผ story์ ๊ด๊ณ์ ์์ด ๋ค์ theme 2๊ฐ๋ฅผ ๊ณ ๋ คํ๋ค.
- Semantic Themes: ์ 2๊ฐ์ ์ฝ์ฌ์ธ ์ ์ฌ๋๋ก ์ถ์ ํ๋ค.
- Symbolic Themes: thematic keyword ๋ถํฌ์ ๋ค์์ฑ์ผ๋ก ์ถ์ ํ๋ค.
Thematic ์ ์ฌ๋์ ์์ ๋ค์๊ณผ ๊ฐ๋ค:
์ฒ์์ max(0,~)๋ผ๊ณ ์จ์๋ ๋ถ๋ถ์ article๊ณผ story์ ์ฝ์ฌ์ธ ์ ์ฌ๋์ด๊ณ ,
๋ค์ JSD(~)๋ผ๊ณ ์จ์๋ ๋ถ๋ถ์ article๊ณผ story์ keyword ๋ถํฌ JS-divergence ์ด๋ค.
Article-Story Assignment
๋ง์ง๋ง์ผ๋ก, USTORY๋ article๊ณผ story์ thematic ์ ์ฌ๋๋ฅผ ๋ค๋ฅธ ํ๋ณด assignment๋ค์ thematic ์ ์ฌ๋์ ๋น๊ตํ์ฌ confidence score์ ๊ฒฐ์ ํ๋ค. ์์ ๋ค์๊ณผ ๊ฐ๋ค:
์ดํ, article์ highest confidence score์ด threshold๋ฅผ ๋์ผ๋ฉด ํด๋น story์ ํ ๋น๋๋ค.
ํ ๋น๋์ง ๋ชปํ article ๋ค์ ๋ค์ window๋ฅผ ํ์ํ๋ฉฐ ์ story๋ฅผ ์ฐพ๋๋ค.
Scalable Processing with Story Summary
Story Summary
์์ ๋๋ฌด ๋ง์ ์์ article์ ๋ชจ๋ ๋ณด๊ดํ๊ธฐ๋ณด๋ค story๋ค์ ์ค๊ฑฐ๋ฆฌ๋ง ๋ณด๊ดํ๋ ๋ฐฉ์์ ์ฌ์ฉํ๋ค๊ณ ์ธ๊ธํ ์ ์ด ์๋ค.
USTORY๋ pane-based ์ฃผ์ฅ์ผ๋ก๋ถํฐ ์ํฅ๋ฐ์ pane-based story summary๋ฅผ ์ฌ์ฉํ๋ค.
pane-based story summary (PSS)๊ณผ ๊ด๋ จ๋ ์์ ๋ค์๊ณผ ๊ฐ๋ค:
USTORY๋ PSS๋ฅผ ์ฌ์ฉํ์ฌ ์๊ฐ์ theme์ ์ธ์งํ๊ณ , ๋์ article๊ณผ story์ ํํ์ ์ด์ ๊ธ์ ๋ํ ์กฐํ ์์ด ๋์ด๋ธ๋ค.
Efficiency Analysis
๋, PSS๋ฅผ ์ฌ์ฉํจ์ผ๋ก์จ, article์ด story์ ํ ๋น๋ ํ์ ์ ๊ฑฐ๋๊ธฐ ์ํด์๋ ๋ค์ PSS๋ง ์ฐ์ธ๋ค.
Conclusion
ํด๋น ๋ ผ๋ฌธ์ ๋ด์ค ์คํธ๋ฆผ์ผ๋ก๋ถํฐ ๋น์ง๋ ์จ๋ผ์ธ ์คํ ๋ฆฌ ๋ฐ๊ตด์ ๊ฐ๋ฅํ๊ฒ ํ๋ scalable ํ๋ ์์ํฌ์ธ USTORY๋ฅผ ์ ์ํ๋ค.
USTORY๋ thematic embedding๊ณผ pre-trained ๋ฌธ์ฅ ์ธ์ฝ๋๋ผ๋ ์๋ก์ด ์์ด๋์ด๋ฅผ ๋์ ํ๊ณ , compactํ ์คํ ๋ฆฌ summary๋ฅผ ๋ค๋ฃจ๋ ์ต์ ์ ์ ์์ clustering์ ์ฌ์ฉํ๋ค.
์ด๋ ์ค์ ๋ด์ค ๋ฐ์ดํฐ๋ก ์คํํ ๊ฒฐ๊ณผ ๊ต์ฅํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์๋ค.
'๐ ๋ ผ๋ฌธ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
Discovering New Intents with Deep Aligned Clustering (0) | 2023.08.16 |
---|---|
A Probabilistic Framework for Discovering New Intents (0) | 2023.07.27 |
CLICK: Constrastive Learning for Injecting Contextual Knowledge to Conversational Recommender System (0) | 2023.06.26 |
GPT-1: Improving Language Understanding by Generative Pre-Training (0) | 2023.06.20 |
Attention is All You Need (2) | 2023.06.16 |