chatGPT ๋๋ฌธ์ธ์ง, ์์ฆ ๋ํํ ์์คํ ์ ๊ด์ฌ์ด ์ ๋ง ๋ง๋ค.
๊ทธ์ค, task-oriented dialogue system์ ๋ํด ์ฐ๊ตฌ๋ฅผ ํ๊ฒ ๋์๋ค.
Task-oriented dialogue system๋ฅผ ์ฃผ์ ๋ก ๋ฆฌ์์น๋ฅผ ํด๋ณด๋, intent detection (์๋ ๊ฐ์ง)๊ฐ ํด๋น ์ฃผ์ ์์ ์ค์ํ task๋ผ๋ ๊ฒ์ ์์๋ค. ๊ทธ๋ด ๋ง๋ ํ ๊ฒ์ด, task-oriented ์ฑ๋ด์ ํน์ ์์ ์ ์ํํ๊ธฐ ์ํด ์ค๊ณ๋ ์์คํ ์ธ๋ฐ, ์์ ์ ์ํํ๊ธฐ ์ํด์๋ ๊ทธ ์์ ์ด ๋ฌด์์ ๊ดํ ๊ฒ์ธ์ง ๋ฑ ์๋๋ฅผ ๋จผ์ ์๋ ๊ฒ์ด ์ค์ํ๊ธฐ ๋๋ฌธ์ด๋ค.
๊ทธ๋ฆฌํ์ฌ ๋๋ ์ ๋ง ์ต๊ทผ์ ACL์ ์๋ก๋ A Probabilistic Framework for Discovering New Intents ๋ผ๋ ๋ ผ๋ฌธ์ผ๋ก ์ฐ๊ตฌ๋ฅผ ์์ํ๊ฒ ๋์๋ค. ์ด๋ ๊ฒ ํฅ๋ฏธ๋กญ๊ฒ, ๋ถ๋ก๊น์ง ํ๋ํ๋ ๋ค ๋ค์ ธ๊ฐ๋ฉฐ ์ฌ์ธํ๊ฒ ์ฝ์ ๋ ผ๋ฌธ์ ์ฒ์์ธ ๊ฒ ๊ฐ๋ค.
Abstract
์ด ๋ ผ๋ฌธ์์๋ ์๋ก์ด ์๋๋ฅผ ๋ฐ๊ฒฌํ๋ ๊ฒ์ด ์ด๋ฏธ ์๋ ค์ง ์๋๋ฅผ ์๋ณํ๋ ๋ฐ ์ ์ตํ๋ค๋ ์ง๊ด์ ๊ฐ์ง๊ณ , ์๋ ํ ๋น (intent assignments)๋ฅผ ์ ์ฌ ๋ณ์๋ก ๋ค๋ฃจ๋ ํ๋ฅ ์ ์ธ ํ๋ ์์ํฌ๋ฅผ ๋ง๋ค์๋ค.
๋ํ, ์ต์ ํ๋ฅผ ์ํด Expectation Mechanism์ ๋์ ํ๋๋ฐ, ์ด์ ๋ํ ๊ฐ๋ ์ ๋ค์๊ณผ ๊ฐ๋ค:
- E-step
- ์๋ ์๋ณ
- ์๋ ํ ๋น์ ์ฌํ ํ๋ฅ (posterior probability)๋ฅผ ํตํ unlabeled data์ ๋ด์ฌ๋ ๊ตฌ์กฐ ํ์
- M-step
- known intent๋ก๋ถํฐ ์ ๋ฌ๋ ์ง์์ ๋ง๊ฐํ๋ ๊ฒ์ ์ํํ๊ธฐ ์ํด labeled data์ ๊ตฌ๋ณ์ฑ ์ต์ ํ
์ด ๋ ๊ฐ๋ ์ ์ค์ฌ์ผ๋ก ๋ ผ๋ฌธ์ ์ ๊ฐํ๋ค.
Introduction
Task-Oriented Dialogue System (์ค์ฌ์ TODS)๋ ์ ์ ์์ interaction์์ ์ ์ฌ์ ์ธ ์ ์๋๋ฅผ ํฌ์ฐฉํด์ผ ํ๋ค. ๊ทธ๋ฆฌ๊ณ ์ด ๊ณผ์ ์ labeled data์ ๋์์ ๋ฐ์ interactio์์ ๋ฐ์ํ unlabeled data ๋ด์ ์๋๋ค์ ์ ์์ ์ผ๋ก ๋ฐ๊ฒฌํ๋ ๋ฐฉ์์ด๋ค.
Previous Works
์ด์ ์ฐ๊ตฌ๋ค์์๋ ์๋ ๋ฐ๊ฒฌ์ ๋น์ง๋ ํด๋ฌ์คํฐ ๊ณผ์ (Unsupervised Cluster Learning)์ผ๋ก ์งํํ๋ค. ๊ทธ๋ฌ๋ ์ด ๋ฐฉ๋ฒ์๋ ๋ฌธ์ ๊ฐ ์์๋๋ฐ, ๋ฐ๋ก clustering ๊ณผ์ ์ ๊ฐ์ด๋ํ๊ธฐ ์ํด ๊ฐ์์ ์ง๋ ํ์ต ์ ํธ ๊ตฌ์ฑ์ ์ด์ ์ ๋๊ณ , ์ฌ์ฉ ๊ฐ๋ฅํ labeled data๋ ๋ฌด์ํ๋ค๋ ๊ฒ์ด๋ค.
์ด๋ฅผ ์ ์ ์์ labeled data๋ฅผ ๋ฏธ๋ฆฌ ์์ ํ์ฌ ์๋ ๋ฐ๊ฒฌ์ ๊ฐ์ด๋ํ ์ ์๊ณ , ๋ํ ์ค ์์ฑ๋๋ ๋ง์ ์์ unlabeled data์์ ๊ธฐ์กด ์๋์ ์๋ ค์ง์ง ์์ ์๋ ๋ ๋ค ๋ฐ๊ฒฌ๋๋ ์ค์ ์ฌ์ฉ ์ํฉ์ ์ ์ฉํ ์ ์์๊น ?
์ฐ์ ์ด๋ป๊ฒ labeled data๋ฅผ ์ด์ฉํด์ unlabeled corpus์ ์๋๋ฅผ ์์๋ผ ์ ์์์ง ํ์ธํด ๋ณด์.
๋ ผ๋ฌธ์์๋ 2021๋ ๋์ ์ ๋ช ํ๋ DeepAligned ๋ชจ๋ธ์ ์๊ฐํ๋ค.
์ด ๋ชจ๋ธ์
- ์ฌ์ ์ง์์ ๋ํ pre-training์ ํตํด unlabeled data์ ์๋ฏธ ํน์ง์ ํ์ต์ํด์ผ๋ก์จ ์ผ๋ฐํํ๋ค.
- ์ต์ ์ ํํ์ ๋ฐ์ํ๊ธฐ ์ํด ๊ฐ unlabeled ๋ฐ์ธ์ ๊ฐ์์ label์ ๋ง๋ค๊ณ re-train ์ํจ๋ค.
๊ทธ๋ฌ๋ ์ด DeepAligned ๋ชจ๋ธ์ ๋ค์๊ณผ ๊ฐ์ 2๊ฐ์ง ์น๋ช ์ ์ธ ๋ฌธ์ ์ ์ด ์์๋ค.
- pseudo supervision signal๋ก re-train ๋ ๋ ์ ๋ฌ ๋จ๊ณ์์ model์ด ์ ๋ฌํ๋ ์ง์์ ๋ง๊ฐํ๋ค๋ ๋ฌธ์
- ๊ฐ์์ label๋ก ๋ง๋ค์ด์ง softmax loss๋ unlabeled data์ ๋ด์ฌ๋ ๊ตฌ์กฐ๋ฅผ ๋ณผ ์ ์๊ณ , ์ด์ ๋ฐ๋ผ ์ ํํ clustering์ด ๋ถ๊ฐ๋ฅํด์ง๋ค๋ ๋ฌธ์
ํด๋น ๋ฌธ์ ๋ค์ ํด๊ฒฐํ๊ธฐ ์ํด, ์ด ๋ ผ๋ฌธ์์๋ ์๋ก ๋ฐ๊ตดํ๋ intent๊ฐ ์๋ intent (known intent)์ ์ํฅ์ ์ฃผ์ง ์๋๋ค๋ ์ง๊ด์ผ๋ก ์์ํ๋ค. labeled data์ ํฌํจ๋ ์๋๋ ์๋ ๋ฐ๊ฒฌ์ ์ํ ๊ฐ์ด๋๋ก ์ฐ์ด๊ณ , unlabeled data๋ก๋ถํฐ ์ป์ ์ ๋ณด๋ ์ด์ ์๋ ๋ฐ๊ตด์ ํ์ธ (์ ํ์ฑ)์ ํฅ์ํ ์ ์๋ ์์ ๊ด๊ณ๋ฅผ ํ์ฑํ๊ฒ ํ๋ ๊ฒ์ด๋ค.
์ด๋ ์๋ ํ ๋น์ ์จ๊ฒจ์ง ๋ณ์ (latent variable)๋ก ๊ฐ์ง๋ ์์น์ ์ด๊ณ ๋ฐฉ๋ฒ๋ก ์ ์ธ ํ๋ ์์ํฌ์ธ๋ฐ, ํด๋น ํ๋ ์์ํฌ์ ์ต์ ํ๋ฅผ ์ํด Expectation-Maximization์ ์์น ํ ํ๋ฆฟ์ผ๋ก ๊ฐ๋๋ค.
ํด๋น ํ ํ๋ฆฟ์ ๋ค์ E-step๊ณผ M-step์ด๋ผ๋ ๋ ๊ฐ์ง ๋จ๊ณ๋ก ๋๋๋ค.
- E-step์์๋ ํ์ฌ ๋ชจ๋ธ์ ์ฌ์ฉํด ์๋๋ฅผ ๋ฐ๊ฒฌํ๊ณ , data์ ๋ด์ฌ๋ ๊ตฌ์กฐ๋ฅผ ๋ณด๊ธฐ ์ํด ์๋ ํ ๋น์ ๊ตฌ์ฒด์ ์ธ ์ฌํ ํ๋ฅ ์ ๊ณ์ฐํ๋ค.
- M-step์์๋ unlabeled data๋ก๋ถํฐ ์๋ก ๋ฐ๊ฒฌ๋ ์๋๋ฅผ ํฌํจํ ๋ฐ์ดํฐ์ ํ๋ฅ ๊ณผ, labeled data๋ฅผ ์๋ณํ๋ ํ๋ฅ , ์นํ์ ๋ฐ๊ฒฌ์ ํน์ง์ ํ์ตํ๋ ๋ฐ ๋์์ด ๋๋ ์๋ ํ ๋น์ ์ฌํ ํ๋ฅ ์ ๋์์ ์ต๋ํํ์ฌ ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ต์ ํ ๋ฐ ์ ๋ฐ์ดํธํ๋ค.
Related Work
์ฌ์ ์ฐ๊ตฌ๋ก๋ Unsupervised Clustering๊ณผ Semi-supervised Clustering ๋ฐฉ์์ด ์๋ค.
๊ฐ๊ฐ์ ๋ฐฉ์์์ ๋ค์ํ ๋ฐฉ๋ฒ๋ก ์ด ํ ์ค๋ก ์ค๋ช ๋๋๋ฐ ์ด๋ ๋ ผ๋ฌธ์์ Related Work ๋ถ๋ถ์ ๋ณด๋ ํธ์ด ๋ ์ข์ ๊ฒ ๊ฐ๋ค.
Unupervised Clustering์ ๋จ์ ์ ์ฌ์ ์ง์์ผ๋ก clustering์ ๊ฐ์ด๋ํ๋ ๊ฒ์ ์ฌ์ฉํ์ง ๋ชปํ๋ค๋ ๊ฒ์ด๊ณ , Semi-supervised Clustering์ ๋จ์ ์ ์์์ ์ค๋ช ํ ๋ง๊ฐ ๊ณผ์ ์ ๋ณด์ ํ๋ค๋ ๊ฒ์ด๋ค.
Approach
1. Problem Definition
์ฐ์ labeled dataset์ D^l, ๊ทธ์ ํด๋นํ๋ intent(์๋)๋ฅผ Y^l, unlabeled dataset์ D^u๋ผ๊ณ ์ ์ํ์.
D = D^l U D^u ์์ ์ด์ฉํด์ D^u์ ์๋ ํ ๋น์ ํ๋ ๊ฒ์ด ์ด ๋ ผ๋ฌธ์ ๋ชฉํ์ด๋ค. (D๋ ์ ์ฒด dataset)
์์์ ๋ฐํ๋ค์ํผ, ์ด ๋ ผ๋ฌธ์์๋ known intent(์๋ ์๊ณ ์๋ ์๋)๋ฅผ ํผ์ํ์ง ์์ผ๋ฉด์ ์ด์ต์ ๊ฐ์ ธ๊ฐ์ผ ํ๋ ์ํฉ์ด๋ค. ์ด๋ ๋ค์๊ณผ ๊ฐ์ ์์์ผ๋ก ํํํ ์ ์๋ค.
์ฌ๊ธฐ์ Z_D๋ฅผ ํ๋์ ๊ฐ์ผ๋ก ์ทจ๊ธํ๊ณ ๊ฐ ๋ณ์ log๋ฅผ ์ทจํ๋ฉด ๋ค์๊ณผ ๊ฐ์ด ์์ฑํ ์ ์๋ค.
์ด์ ๋ชฉํ๋ ์ข์ Z_D๋ฅผ ์ฐพ์ L_obj๋ฅผ ์ต์ ํํ๋ ๊ฒ์ด ๋์๋ค.
์ ๊ณผ์ ์ ๋ ์๊ธฐ ์ฝ๊ฒ ํ์ด์ฐ๋ฉด,
- ๋ฐ์ดํฐ D์๋ ๋ค์ํ ๋ํ ๋ฌธ์ฅ๋ค์ด ์๊ณ , ๋ฌธ์ฅ๋ค์ ์๋์ ๋ฐ๋ผ clustering ๋๋ค.
- ์ดํ, ๊ฐ ๊ทธ๋ฃน์ ํด๋นํ๋ ์๋๋ฅผ ํ ๋นํ๊ธฐ ์ํด ์ ์ฌ ๋ณ์ Z๋ฅผ ๋์ ํ๋ค.
- Z_D๋ ์๋ ํ ๋น์ ๊ฐ์ธ๋ฐ, ์ด๋ ๊ทธ๋ฃน์ ์๋๋ฅผ ๋งคํํ์ฌ ๋ฐ์ดํฐ์ ์๋์ ๊ด๊ณ๋ฅผ ๋ชจ๋ธ๋งํ๋ ๊ฒ์ ์ฌ์ฉ๋๋ค.
2. Intent Representation Transferring Knowledge
model์ ์ด๊ธฐํํ๊ธฐ ์ํด์๋ labeled ๋จ์ด์์ knowledge๋ฅผ tansfer ํ๋ ๊ฒ์ด ํ์ํ๋ฐ, ํด๋น ๋ ผ๋ฌธ์์๋ BERT๋ฅผ fine-tuning ํ์ฌ ์ฌ์ฉํ๋ค.
๋ฐํ (x_i)๊ฐ ์ฃผ์ด์ง๋ฉด, BERT๋ฅผ ์ฌ์ฉํด์ contextual embedding์ ๊ตฌํ๊ณ , mean-pooling์ ํตํด ์๋ฏธ์ ํํ (z_i)๋ฅผ ์ถ์ถํ๋ค. fine-tuning ํ๋ ๊ณผ์ ์์ objective function์ ๋ค์๊ณผ ๊ฐ๋ค:
fi ํจ์๋ ์ ํ ๋ถ๋ฅ๋ฅผ ๋ปํ๊ณ , K^l์ known intent์ ์๋ฅผ ๋ปํ๋ค.
3. EM Framework for Optimization
์์์ ์ค๋ช ํ Z๋ ๋ค์ ๋ ๊ฐ์ง ์์ฑ์ผ๋ก ๊ตฌ์ฑ๋ผ ์๋ค:
- D ์์ ์ผ๋ง๋ ๋ง์ ์๋๊ฐ ์๋์ง ๋ํ๋ด๋ ์ฒ๋์ธ K๋ฅผ ์ด๋ป๊ฒ ๊ฒฐ์ ํ ์ง
- D์ ํด๋นํ๋ ์๋๋ฅผ ์ด๋ป๊ฒ ํ ๋นํ ์ง
K๋ฅผ ์ถ์ธกํ๊ธฐ ์ํด์, ์ด ๋ ผ๋ฌธ์์๋ ๋ค์๊ณผ ๊ฐ์ ๊ณผ์ ์ ๊ฑฐ์น๋ค:
- ์ฐ์ rough value k๋ฅผ ์ค์ ํ๋ค. (ex. ์ค์ ์๋ ๊ฐ์์ ๋ฐฐ์)
- k๊ฐ์ ์๋ฏธ์ cluster๋ก ๊ทธ๋ฃนํํ์ฌ ํฌ๊ธฐ๊ฐ ์ผ์ threshold ๋ฏธ๋ง์ธ ๊ฒ์ ์ ๊ฑฐํ์ฌ ๋ฐ์ดํฐ๋ฅผ ์ ์ ํ๋ค.
์ฌ๊ธฐ์ D์ K-means๋ฅผ ์ฌ์ฉํ์ฌ k๊ฐ์ ๋ฌถ์์ผ๋ก ๋ง๋ ๋ค. - K-means๋ฅผ ์ฌ์ฉํด์ ๊ฐ ๋ฐํ์ ์๋๋ฅผ ํ ๋นํ๋ค.
- EM ์๊ณ ๋ฆฌ์ฆ ํ๋ ์์ํฌ๋ก ์ด๋ป๊ฒ ์์ L_obj ์์ ์ต์ ํํ ์ง ์๊ฐํ๋ค.
EM ์๊ณ ๋ฆฌ์ฆ์ ๋จ๊ณ๋ ๋ค์๊ณผ ๊ฐ๋ค:
1. E-step
- ์ด์ ์ ๊ฐ์์ label์ ํ ๋นํ cross-entropy loss๋ฅผ ์ฌ์ฉํ๋ ๋ชจ๋ธ๋ค์ ์ ํํ์ง ์์๋ค.
- D์ ๋ด์ฌ๋ ๊ตฌ์กฐ๋ฅผ ๋ ์ ๋ฐ์ํ๊ณ , ์๋ ํ ๋น์ ํน์ง์ ํ์ตํ๊ธฐ ์ํด์ ๋์ผํ ์๋๋ฅผ ๊ฐ์ง ๋ฐํ๋ฌธ์ ์๋ฏธ์ ๊ณต๊ฐ์์ ๊ฐ๊น๊ฒ ๋ฐฐ์นํ๊ณ , ์๋ก ๋ค๋ฅธ ์๋๋ฅผ ๊ฐ์ง ๋ฐํ๋ฌธ์ ๋ฉ๋ฆฌ ๋ฐฐ์นํ๋ค.
ํด๋น ๊ฐ๋ ์ contrastive learning์ผ๋ก๋ถํฐ ์๊ฐ ๋ฐ์ ์ฌํ ํ๋ฅ ์ธ p(Z|D; θ)๋ฅผ ์ถ์ ํ๋ค. ์์ ๋ค์๊ณผ ๊ฐ๋ค:
C_k๋ Z์ ์ํด ์์ฑ๋ cluster์ด๊ณ , x์ x+ ๋ ํน์ง๋ค ๊ฐ์ ์ฝ์ฌ์ธ ์ ์ฌ๋๋ก ๊ณ์ฐ๋๋ค.
Deepaligned์ ๋ง๊ฐ ํน์ฑ ๊ทน๋ณต์ ์ํด์๋ L_obj ๊ด๋ จ ์์ ์ต์ ํํด์ผ ํ๊ณ , ์ด๋ฅผ ์ํด์๋ p(Y^l|Z, D; θ)๋ ๊ณ์ฐํด์ผ ํ๋ค.
๊ณ์ฐ ์์ ๋ค์๊ณผ ๊ฐ๋ค:
pi ํจ์๋ ์์์ ์ค๋ช ํ ๊ฒ๊ณผ ๊ฐ์ linear classifier (์ ํ ๋ถ๋ฅ๊ธฐ)์ด๊ณ , y๋ x์ label, K^l๋ known intent์ ์ด๊ธธ์ด, D^l์ D์์์ labeled data์ด๋ค.
D^l(D^u, Z)๋ D^u์ ์ํ ์ค Z ๊ณผ์ ์ ๊ฑฐ์ณ known intents๋ก ์ฌ๊ฒจ์ง ์ ์๋ ์ํ์ ๋ปํ๋ค. ์ด์ ๊ดํ ์์ ๋ค์๊ณผ ๊ฐ๋ค:
x^l์ D^l์ ์ํ, y^l๋ x^l์ label์ด๋ค. N_Z(x^l)๋ Z์ ์ํด x^l๊ณผ ๊ฐ์ ๋ฌถ์์ผ๋ก ๋ฌถ์ธ ๊ฒ์ ๊ฐ๊น์ด neighbor unlabeled dataset ์ํ์ด๋ค.
(์ฐธ๊ณ ) D^l์ ๋ํ์ ๋์ ๋ํ์ง ์์์ ๋ effect๋ฅผ ๋น๊ตํด ๋ณด๋, ๋ํ์ ๋์ ์ฑ๋ฅ์ด ํจ์ฌ ์ข์์์ ์ ์ ์๋ค.
์ดํ labeled ๋ data๋ model training์ ๋ง์ถฐ์ง๋ค.
์์ ๊ฐ์ ๋ฐฉ๋ฒ์ผ๋ก, ๋ชจ๋ธ์ labeled data์์ transfer ์์๋ knowledge๋ฅผ ์์ง ์๊ฒ ๋๊ณ , ๊ณ์ dataset์ ๋ด์ฌ์ ์ธ ๊ตฌ์กฐ๋ฅผ ํ๊ตฌํ ์ ์๊ฒ ๋๋ค.
2. M-step
M-step์์๋ Equation 2๋ฒ์ θ๋ฅผ ์ ๋ฐ์ดํธํ๋ ๊ฒ์ด ๋ชฉ์ ์ด๋ค.
์์ E-step์์ ๋ง๋ ์์ผ๋ก, ์ต์ข loss๋ ๋ค์๊ณผ ๊ฐ์ด ์์ฑ๋๋ค:
์ฌ๊ธฐ์ λ๋ ํ์ต ์ค ๋ ๊ฐ์ log ํ๋ฅ ์ ๊ณ์ฐํ๊ธฐ ์ํ ํ์ดํผํ๋ผ๋ฏธํฐ์ด๊ณ , τ๋ temperautre scaling์ ์ํ ํ์ดํผํ๋ผ๋ฏธํฐ์ธ๋ฐ, ์ด๋ ๊ฐ๋ contrastive learning์๋ ๋ฑ์ฅํ๋ค.
์ฌ๊ธฐ์ first term (λ์ ๊ณฑํด์ง ๋ถ๋ถ)์ unlabeled data์ ๋ด์ฌ๋ ๊ตฌ์กฐ๋ฅผ ํ์ํ์ฌ exploration์ด๋ผ๊ณ ํ๊ณ ,
second term ((1-λ)์ ๊ณฑํด์ง ๋ถ๋ถ)์ labeled data์์ transfer ๋ ์ง์์ ์ฌ์ฉํ๊ธฐ ์ํด ๊ฐํํ๋ ๊ฒ์ผ๋ก utilization์ด๋ผ๊ณ ๋ ํ๋ค.
λ์ ๊ฐ์ ์กฐ์ ํ์ฌ ์คํํ ๊ทธ๋ํ๋ฅผ ๋ณด์์ ๋, exploration๊ณผ utilization ๋ ๋ค ํ์ํ ๊ฒ์ ์ ์ ์๋ค.
์ต์ข ์ ์ธ EM ํ๋ ์์ํฌ์ ํ์ต ๊ณผ์ ์ ์๊ฐํํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค:
Experiments
๋ ผ๋ฌธ์์ ์ ์๋ ์คํ์์๋ ๋ค์ 3๊ฐ์ ๋ฐ์ดํฐ์ ์ ํ์ฉํด์ ํจ์ฉ์ฑ์ ์ฆ๋ช ํ๋ค.
1. CLINC
2. BANKING
3. StackOverflow
๊ฒฐ๊ณผ๋ ์๋์ ๊ฐ๋ค
Results and Discussion
๊ฒฐ๊ตญ, ์ด ํ๋ ์์ํฌ๋ ์์ 3๊ฐ์ง ์คํ์์ ๋ชจ๋ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์๋ค. ์ด ํ๋ ์์ํฌ์์๋ labeled data๋ฅผ model training์ ๊ฐ์ด๋๋ก ์ฌ์ฉํ์ฌ model์ด ๋ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๊ฐ์ง๊ฒ ํ๋ค.
More Than Remembering Knowledge
ํด๋น ๋ ผ๋ฌธ์์๋ unlabeled data์์ ๋ฐ๊ฒฌ๋ D^l ์ํ์ด ๋ง๊ฐํ์์ ๋ง๋ ๊ฒ์ ๋์ด์, known intents์ ํ์ธ์ ๋์์ฃผ์๊ธฐ ๋๋ฌธ์ model์ด ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค๊ณ ์ฃผ์ฅํ๋ค.