์ง๋๋ฒ A Probabilistic Framework for Discovering New Intents ๋ ผ๋ฌธ์ ์ฝ๊ณ , ๋ ผ๋ฌธ์ ๋ ์ ์ดํดํ๊ณ ์ ํด๋น ๋ ผ๋ฌธ์ ๋ฒ ์ด์ค๊ฐ ๋๋ DeepAligned ๋ ผ๋ฌธ์ ์ฝ๊ฒ ๋์๋ค.
Introduction
์ฐ์ ์ด ๋ ผ๋ฌธ์ ๋ชฉ์ ์ known intent๋ก labeled ๋ data๋ฅผ ๊ฐ์ง๊ณ ์๋ก์ด intent๋ฅผ ๋ฐ๊ฒฌํ๋ ๊ฒ์ด๋ค.
์ด ์์ ์ ์ํํ๊ธฐ ์ํด ๊ธฐ์กด์๋ ๋ค์ ๋ ๊ฐ์ง ์ด๋ ค์์ด ์์๋ค:
1. ์ ํ๋ ์์ known intents์ ์ฌ์ ์ง์์ new intent์๊ฒ ์ ๋ฌํ๊ธฐ ์ด๋ ต๋ค.
2. unlabeled known๊ณผ new intent๋ฅผ ๋๋ค clustering ํ๊ธฐ ์ํด ์น๊ทผํ ํํ์ ํ์ตํ๊ธฐ ์ํ ๋์ ํ๋ฆฌํฐ์ supervised signal์ ๋ง๋ค๊ธฐ ์ด๋ ต๋ค.
์ด์ ๋ํ ํด๊ฒฐ๋ฐฉ์์ผ๋ก, ์ด ๋ ผ๋ฌธ์ DeepAligned๋ฅผ ํตํด feature learning์ ์ํด known intent์ ์ฌ์ ์ง์์ ํ์ฉํด์ ๋์ ํ๋ฆฌํฐ์ supervised signal์ ๋ง๋ค์๋ค.
DeepAligned์ ์ ์ฒด์ ์ธ ์ํคํ ์ณ๋ ์์ ๊ฐ๋ค.
1. BERT๋ฅผ ์ฌ์ฉํด์ intent feature๋ฅผ ์ถ์ถํ๋ค.
2. ์ ์ labeled data๋ก ๋ชจ๋ธ์ pre-trainํ๊ณ , ์๋ ๊ฐ์ K๋ฅผ ์ถ์ ํ๋ค.
3. K-means์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํด์ cluster centroid๋ฅผ ๋ง๋ค๊ณ cluster assignment๋ฅผ pseudo label๋ก ํ ๋นํ๋ค.
4. ํ์ฌ training epoch๊ณผ ์ด์ training epoch ์ฌ์ด๋ฅผ ์ต๋ํ ๊ฐ๊น๊ฒ ๋ง๋ค๋๋ก cluster centroid๋ฅผ ์กฐ์ ํ๊ณ projection G๋ฅผ ์์ฑํ๋ค.
5. ์ต์ข ์ ์ผ๋ก pseudo-label์ G๋ฅผ ์ฌ์ฉํด์ self-supervised learning์ ์ํด ์กฐ์ ๋ label (aligned label)์ ์์ฑํ๋ค.
Approach
์์ ๊ณผ์ ์ ํด๋น ์น์ ์์ ์กฐ๊ธ ๋ ๊ตฌ์ฒดํ์์ผ๋ณธ๋ค.
1. Intent Representation
์ฐ์ BERT๋ฅผ ํ์ฉํด์ intent representation์ ์ถ์ถํ๋ค.
ํด๋น ์์ ์ ๋ค์๊ณผ ๊ฐ์ ์์ ์ ๊ฑฐ์น๋ค:
1. input sentence s_i๋ฅผ BERT์ ๋ฃ๊ณ , ๋ง์ง๋ง hidden layer์์ ๋ชจ๋ token embedding์ ๊ฐ์ ธ์จ๋ค.
2. mean-pooling์ ํตํด ํ๊ท feature representation z_i๋ฅผ ์ป๋๋ค.
์ฌ๊ธฐ์ CLS๋ text classification์ ์ํ vector, M์ ๋ฌธ์ฅ์ ๊ธธ์ด, H๋ hidden size ์ด๋ค.
3. ๋ ๋์ ์๋ฏธ์ ํํ ์ถ์ถ์ ์ํด dense layer h ๋ฅผ ์ถ๊ฐํ์ฌ intent feature representation I_i๋ฅผ ์ป๋๋ค.
2. Transferring Knowledge from Known Intents
Pre-training
๋ค์์ known intent๋ก ์๊ณ ์๋ ์ ๋ณด๋ค์ transfer ํ๋ ๊ณผ์ ์ ๊ฑฐ์ณ์ผ ํ๋ค.
์ด knowledge๋ฅผ ์ transfer ํ๊ธฐ ์ํด์๋ ์ ํ๋ labeled data๋ฅผ ์ฌ์ฉํด์ ๋ชจ๋ธ์ pre-train ์ํค๊ณ ,
์ ํ๋ จ๋ intent ํน์ง๋ค์ ํ์ฉํ๋ฉด ํด๋ฌ์คํฐ์ ๊ฐ์๋ฅผ ์ถ์ ํ ์ ์๋ค.
Predict K
์ฐ์ ํด๋ฌ์คํฐ ๊ฐ์๋ฅผ ๋ํ๋ด๋ K๋ฅผ ์์ธกํ๊ธฐ ์ํด ๋ค์๊ณผ ๊ฐ์ ๊ณผ์ ์ ๊ฑฐ์น๋ค:
1. ๊ธฐ๋ณธ K๊ฐ์ธ K' ์ค์ (์ฃผ๋ก ์๋ intent์ ๋ฐฐ์๋ก ๊ฒฐ์ ํ๋ค.)
2. pre-trainํ ๋ชจ๋ธ์ ์ฌ์ฉํด์ intent feature์ ์ถ์ถํ๋ค.
3. ์ถ์ถ๋ feature๋ค์ ์ฌ์ฉํด์ K-means๋ฅผ ์ํธํ๋ค.
4. ํน์ ์๊ณ๊ฐ ๋ฏธ๋ง์ ๊ฐ์ low confidence๋ก ๊ฐ์ฃผํ์ฌ ๋ฒ๋ฆฐ๋ค.
์ด ๊ณผ์ ์ ๊ฑฐ์น K ๊ฐ ์ถ์ธก์ ๋ค์ ์์ผ๋ก ํํ ๊ฐ๋ฅํ๋ค:
|S_i|๋ i๋ฒ์งธ ์์ฑ๋ cluster ๊ฐ์, δ๋ indicator function์ธ๋ฐ, |S_i|๊ฐ t๋ณด๋ค ํฌ๊ฑฐ๋ ๊ฐ์ผ๋ฉด 1์, ์๋๋ฉด 0์ ๋ํ๋ธ๋ค.
3. Deep Aligned Clustering
known intent๋ก๋ถํฐ knowledge๋ฅผ transfer ํ ํ, ์ด์ unlabeled known, novel classes๋ฅผ ์ฐพ๊ธฐ ์ํด clustering ์์ ์ ์ํํด์ผ ํ๋ค. ์ฐ์ ํด๋ฌ์คํฐ๋ง ํ cluster assignment์ centroid๋ฅผ ์ป๊ณ , self-supervised learning์ ์ํ ์ ๋ต์ ์คํํ๋ค.
Unsupervised Learning by Clustering
๊ฑฐ์ ๋๋ถ๋ถ์ data๋ค์ unlabeled ๋์ด ์์ผ๋ฏ๋ก, unlabeled sample๋ค์ ์ด์ฉํด์ ์๋ก์ด class๋ฅผ ์ฐพ์๋ณด์.
1. training data์ ๋ํ intent feature์ pre-train ์ํจ ๋ชจ๋ธ์ ์ฌ์ฉํด์ ์ถ์ถํ๋ค.
2. K-means ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํด์ optimal cluster centroid matrix C์ cluster assignment๋ฅผ ํ์ต์ํจ๋ค. ์์ ๋ค์๊ณผ ๊ฐ๋ค:
N์ training sample์ ๊ฐ์, ||~~||^2_2๋ ์ ํด๋ฆฌ๋์ ๊ฑฐ๋ฆฌ์ ์ ๊ณฑ์ ์๋ฏธํ๋ค.
์ดํ cluster assignment๋ฅผ feature learning์ pseudo-label๋ก ๊ฐ์ฃผํ์ฌ ์ฌ์ฉํ๋ค.
Self-supervised Learning with Aligned Pseudo-labels
์ด ๋ ผ๋ฌธ์ด ์ฐธ๊ณ ํ DeepCluster ๋ ผ๋ฌธ์์๋ K-means๋ฅผ ํ์ฉํ clustering๊ณผ ํ๋ผ๋ฏธํฐ update๋ฅผ ๋ฒ๊ฐ์ ๊ฐ๋ฉฐ ์งํํ๋ค.
๊ทธ๋ฌ๋ ์ด ๋ฐฉ์์์, ๊ฐ epoch๋ง๋ค K-menas๋ฅผ ์ํํ๋ฉด data index๊ฐ ๊ณ์ ์ฌ๋ฐฐ์น๋๋ค๋ ๋ฌธ์ ๊ฐ ๋ฐ์ํ๋ค.
์ด๋ data์ label์ด epoch๋ง๋ค ๋ฐ๋ ์ ์์์ ๋ปํ๊ณ , ๊ทธ๋ผ ๋ชจ๋ธ์ epoch๋ง๋ค ๋ค๋ฅธ label์ ๊ฐ์ง data๋ก ํ๋ จํ๊ฒ ๋๋ค.
์ด๋ ์ผ๊ด๋ ํ์ต์ด ์ด๋ ต๋ค๋ ์ ์์ ์น๋ช ์ ์ธ ๋จ์ ์ด์๋ค.
๋ฐ๋ผ์ ํด๋น ๋ ผ๋ฌธ์์๋ assignment inconsistency ๋ฌธ์ ๋ฅผ ์ํด alignment ์ ๋ต์ ๋์ ํ๋ค.
์์์ ๋ฌธ์ ๋ epoch๋ง๋ค ๋ค๋ฅธ label์ ๊ฐ์ง๋ค, ์ฆ ์ด์ ์ ํ์ต ์ ๋ณด๊ฐ ๊ธฐ์ต๋์ง ์๋๋ค๋ ์ ์ด์๋ค.
์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ํด๋น ๋ ผ๋ฌธ์์๋ cluster centroid๋ฅผ ์ฌ์ฉํ๋ค. ๋จ๊ณ์ ์ธ ๊ณผ์ ์ ๋ค์๊ณผ ๊ฐ๋ค:
1. ์ค๋น
์ด์ ๊ณผ ํ์ฌ epoch์์์ ํด๋ฌ์คํฐ ์ค์ฌ ํ๋ ฌ (centriod matrix)์ ์ค๋นํ๋ค.
2. ์ ์ฌ๋ matrix
ํด๋ฌ์คํฐ ์ค์ฌ ํ๋ ฌ๊ฐ์ ์ ์ฌ๋๋ฅผ ๊ณ์ฐํ์ฌ ์ ์ฌ๋ matrix๋ฅผ ๋ง๋ ๋ค.
์๋ฅผ ๋ค์ด, matrix์ (i,j)๋ C^l์ i๋ฒ์งธ์ C^c์ j๋ฒ์งธ ์ ์ฌ๋๋ฅผ ๋ํ๋ธ๋ค.
(C^c๋ current epoch์ centroid matrix, C^l์ last(์ด์ ) epoch์ centroid matrix๋ฅผ ๋ํ๋ธ๋ค.)
3. ํ๊ฐ๋ฆฌ์ ์๊ณ ๋ฆฌ์ฆ
์ ์ฌ๋ matrix์ ํ๊ฐ๋ฆฌ์ ์๊ณ ๋ฆฌ์ฆ์ ์ ์ฉํด์ ์ต์ ์ ๋งคํ์ ์ฐพ๋๋ค.
์ด๋ ๋ ํด๋ฌ์คํฐ ์ค์ฌ ํ๋ ฌ๊ฐ์ ์ ์ฌ๋๋ฅผ ์ต๋ํํ๋ ๊ณผ์ ์ธ๋ฐ,
์์์ ์ฐพ์ (i,j) ์ ์ฌ๋ ์ค ์ ์ฌ๋ ๋์ ๊ฒ์ด ๊ฐ์ index์ ์์นํ๋๋ก C^c๋ฅผ ๋ณํ์ํจ๋ค. ์์ ๋ค์๊ณผ ๊ฐ๋ค:
์ฌ๊ธฐ์ G๋ ํ๊ฐ๋ฆฌ์ ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ์ฌ ์ป์ ์ต์ ์ mapping์ด๋ค.
4. ์ ๋ ฌ๋ ์ค์ฌ ํ๋ ฌ ์์ฑ
์ ๊ณผ์ ์ ๊ฑฐ์ณ ์ ๋ ฌ๋ ์ค์ฌ ํ๋ ฌ C^c๋ฅผ ์์ฑํ๋ค.
5. ์ ๋ ฌ๋(aligned) psuedo label ์์ฑ
y^c๋ฅผ ์ ๋ ฌ๋ ์ค์ฌ ํ๋ ฌ์ ๋งคํํ์ฌ y^align์ ์์ฑํ๋ค. ์์ ๋ค์๊ณผ ๊ฐ๋ค.
6. Self-supervised learning
์์ aligned pseudo-label์ ์ฌ์ฉํ๊ณ ๋ค์ softmax loss๋ฅผ ์ฌ์ฉํด์ self-supervised learning์ ์งํํ๋ค:
φ(·)๋ pseudo-classifier์ด๋ค.
์์ ๊ฐ์ clustering ๊ณผ์ ์ ๊ฑฐ์น ํ์๋ cluster validity index (CVI)๋ฅผ ์ฌ์ฉํด์ ๊ฐ training epoch๋ง๋ค clustering ํ์ ์ป์ cluster์ quality๋ฅผ ํ๊ฐํ๋ค. ํนํ, ํ๊ฐ๋ฅผ ์ํด์๋ unsupervised metric์ธ Silhouette Coefficient๋ฅผ ์ฌ์ฉํ๋ค. ๊ด๋ จ ํ๊ฐ ๋ฉ์๋๋ ๋ค์๊ณผ ๊ฐ๋ค:
a(I_i)๋ I_i์ ๋ค๋ฅธ i๋ฒ์งธ cluster์ ์๋ sample๋ค์ ํ๊ท ๊ฑฐ๋ฆฌ์ด๊ณ (์ด๋ intra-class compactness๋ฅผ ๋ํ๋ธ๋ค๊ณ ํ๋ค.)
b(I_i)๋ I_i์ i๋ฒ์งธ๊ฐ ์๋ cluster์ ์๋ ๋ชจ๋ sample๋ค ์ค ๊ฐ์ฅ ์งง์ ๊ฑฐ๋ฆฌ๋ฅผ ๋ํ๋ธ๋ค. (์ด๋ inter-class seperation์ ๋ํ๋ธ๋ค.)
SC์ ๋ฒ์๋ -1๊ณผ 1 ์ฌ์ด์ด๊ณ , ๋์ ์ ์์ผ์๋ก ์ข์ clustering ๊ฒฐ๊ณผ๋ฅผ ๋ปํ๋ค.
Experiments
Dataset
๋ฐ์ดํฐ๋ CLINC(intent classification dataset)๊ณผ BANKING(์ํ, ๊ธ์ต๊ณผ ๊ด๋ จ๋ dataset)์ด๋ค.
CLINC์ 10๊ฐ์ ๋๋ฉ์ธ์ ๊ฑฐ์ณ 150๊ฐ์ ์๋์ 22500๊ฐ์ ๋ฐํ๋ก ๊ตฌ์ฑ๋ผ ์๊ณ ,
BANKING์ 77๊ฐ์ ์๋์ 13083๊ฐ์ ๋ฐํ๋ก ๊ตฌ์ฑ๋ผ ์๋ค.
Baselines
ํ๊ฐ ๋ฐฉ์์ unsupervised์ semi-supervised์ 2๊ฐ์ง๋ก ๋๋๋ค.
Evaluation Metrics
ํ๊ฐ metric์ผ๋ก๋ NMI, ARI, ACC๋ฅผ ์ฌ์ฉํ๋๋ฐ, ACC๋ก ํ๊ฐํ๊ธฐ ์ํด์๋
ํ๊ฐ๋ฆฌ์ ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํด์ ์์ธก๋ ํด๋์ค์ ground-truth ํด๋์ค์ mapping์ ์ป๋๋ค.
Evaluation Settings
๋ฐ์ดํฐ์ ์ 10%์ training data ์ค 75% known intent๋ก, ๋๋จธ์ง 25%๋ฅผ unknown intent๋ก ๋๋คํ๊ฒ ์ ํํ๋ค.
์ดํ, ํด๋น ๋ฐ์ดํฐ์ ๋ค์ training, validation, test set๋ก ๊ตฌ๋ถํ๋ค.
์ด๋, intent category ์ (K)๋ฅผ ์ค์ ์ ๋ต๊ฐ (ground-truth)๋ก ์ฌ๊ธด๋ค.
ํ๊ฐ ๊ณผ์ ์ ๋ค์๊ณผ ๊ฐ๋ค:
1. ์ ์ ์์ known intent๋ฅผ ๊ฐ์ง labeled data๋ฅผ ์ฌ์ฉํด์ ๋ชจ๋ธ์ pre-training์ ํ๊ณ , validation set๋ก ํ๋ํ๋ค.
2. ๋ชจ๋ training data๋ฅผ self-supervised learning์ ์ํด ์ฌ์ฉํ๊ณ cluster์ SC๋ก ํ๊ฐํ๋ค.
3. test set์ ๋ํ ์ฑ๋ฅ์ ํ๊ฐํ๊ณ ์ต์ข ํ๊ท ๊ฒฐ๊ณผ๋ฅผ ์์ฑํ๋ค.
๊ฒฐ๊ณผ๋ ๋ค์๊ณผ ๊ฐ๋ค:
Conclusion
์ด๋ ๊ฒ, ์ด ์ฐ๊ตฌ์์๋ ์๋ก์ด ์๋๋ฅผ ๋ฐ๊ฒฌํ๋ ํจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค.
์ด ๋ฐฉ๋ฒ์ ์ ํ๋ known intent์ ์ฌ์ ์ง์์ ์ฑ๊ณต์ ์ผ๋ก transferํ๋ฉฐ, low-confidence cluster๋ฅผ ์ ๊ฑฐํจ์ผ๋ก์จ ์๋ ์๋ฅผ ์ถ์ ํ๋ค.
๋ํ, clustering ํ๋ก์ธ์ค๋ฅผ ์์ ์ ์ด๊ณ ๊ตฌ์ฒด์ ์ผ๋ก ์๋ดํ๋ ๋ ์์ ์ ์ธ supervised signal๋ฅผ ์ ๊ณตํ๋ค.
DeepAligned๋ ๋น๊ต ๋์ ๋ฐฉ๋ฒ๋ณด๋ค ์ข์ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ, ์ ํ๋ ์ฌ์ ์ง์์ ์ฌ์ฉํ์ฌ ๋ ์ ํํ ์ถ์ ๋ cluster ์๋ฅผ ์ป๋๋ค.