์ฐ๊ตฌ ๋ถ์ผ๋ฅผ ์ ํ๋ ค๊ณ ๋ ผ๋ฌธ์ ๋ณด๊ณ ์๋๋ฐ, NID (New Intent Classification) ๋ ผ๋ฌธ๋ค์ ๊ณ์ ์ฝ๊ฒ ๋๋ค.
๋ณธ ๋ ผ๋ฌธ์ 2022 ACL ํํ์ ์๋ก๋ ๋ ผ๋ฌธ์ด๋ฉฐ, ์ฃผ ์ ์๋ Yuwei Zhang ์ด๋ค.
Abstract
Problem
๊ธฐ์กด์ ๋ฐฉ๋ฒ๋ค์ ๋ค๋์ labeled data์ ์์กดํ๊ฑฐ๋ pseudo-labeling์ ํตํ clustering ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ ๋๋ฌด label์ ์์กด์ ์ด๋ค.
๋ณธ ์ฐ๊ตฌ์์๋ NID ๋ถ์ผ์ ์์ด ๋ค์ ์ง๋ฌธ๋ค์ ๋ํ ๋ต์ ์ป๊ณ ์ ํ๋ค:
- ์ด๋ป๊ฒ ์๋ฏธ์ ๋ฐํ ํํ์ ํ์ต์ํฌ ์ ์๋์ง
- ๋ฐํ๋ค์ ์ด๋ป๊ฒ ๋ ์ clustering ํ ์ง
Method
- Multi-task pre-training(MTP) ์ ๋ต ์ฌ์ฉ
- representation learning์ ์ํด ๋ง์ ์์ unlabeled data์ ์ธ๋ถ labeled data๋ฅผ ํจ๊ป ํ์ฉ
- New Contrastive Loss (CL) ์ฌ์ฉ
- unlabeled data์์ clustering์ ์ํด self-supervisory signal์ ๋ง๋ฆ
ํด๋น ๋ฐฉ๋ฒ์ 3๊ฐ์ง dataset์ผ๋ก ํ๊ฐ๋๋ฉฐ, unsupervised์ semi-supervised ๋ฐฉ์ ๋ชจ๋์์ SOTA๋ฅผ ๋ฌ์ฑํ๋ค.
Introduction
๋จ์ด์ ์๋ฏธ์ ํํ์ ํตํด clustering์ ์ํ ์ข์ ๊ทผ๊ฑฐ๋ฅผ ์ ๋ฌํ๋ ๊ฒ์ด ์ค์ํจ → ๊ทธ๋ฅ PLM ์ด์ฉํด์ ๋ฐํ ํํ์ ์์ฑํ๋๊ฑด ์๋ฃจ์ ์ด ๋ ์ ์์
Recent Works
- labeled data๋ฅผ ์ฌ์ฉํ ์ด์ ์ ์ฐ๊ตฌ๋ค์ ๋ง์ ์์ known intents์ ์ถฉ๋ถํ ์์ labeled data๋ฅผ ํ์๋ก ํ์. → ๊ทธ๋ฌ๋ ์ด ์ํฉ์ ์ค์ ์ํฉ๊ณผ๋ ๊ฑฐ๋ฆฌ๊ฐ ๋ฉ์
- pseudo labeling ์ ๊ทผ์ ํตํด supervision signal์ ๋ง๋ค์ด representation learning๊ณผ clustering ํ๋ ค๋ ๋ ธ๋ ฅ๋ค๋ ์์์ง๋ง, data๋ค์ด noisyํ๊ณ ์๋ฌ๊ฐ ๋ง์์
Solutions
- Multi-task pre-training (MTP) : ์ธ๋ถ (external) data์ ๋ด๋ถ (internal) data๋ฅผ ํจ๊ป ์ฌ์ฉํ์ฌ representation learning ํ๋ ๋ฐฉ์
- ๊ณต๊ฐ๋ high-quality intent detection dataset๊ณผ ํ์ฌ ๋๋ฉ์ธ์ labeled, unlabeled dataset์ ๋ชจ๋ ํ์ฉํด์
- PLM ํ์ธํ๋์ ์งํํ ํ,
- NID๋ฅผ ์ํ task-specific ๋ฐํ ํํ์ ํ์ตํจ
- Contrastive learning with nearest neighbors (CL-NN) : ์ด์ ๊ด๊ณ๋ฅผ ํ์ฉํด์ unsupervised์ semi-supervised ์๋๋ฆฌ์ค ๋๋ค์ contrastive loss๋ฅผ ์ ์ฉํ๋ ๋ฐฉ์
- ์๋ฏธ์ ๊ณต๊ฐ์์์ ์ด์์ ๋น์ทํ intent๋ฅผ ๋ณด์ ํ ๊ฒ์ด๊ณ , ํด๋น ์ํ๋ค์ ๋ชจ์ผ๋ฉด cluster๋ฅผ ๋์ฑ ์ปดํฉํธํ๊ฒ ๋ง๋ค ์ ์์
Related Works
NID
- unsupervised methods
- semi-supervised methods: using labeled data to support the discovery of unknown intents
- supervised methods: known intents์ ๋ํด pre-train ํ ํ, k-means clustering ์ ์ฉํด์ unlabeled data์ pseudo label ํ ๋น
Pre-training
- pre-training with relevant tasks can be effective for intent recognition ๋ผ๋ ์ฌ์ ์ฐ๊ตฌ
→ ๋ณธ ๋ ผ๋ฌธ์์๋ ๊ณต๊ฐ์ ์ผ๋ก ์ด์ฉ ๊ฐ๋ฅํ intent dataset + unlabeled data in current domain์ pre-training์ ์ฌ์ฉ → few-shot intent detection
Method
Problem Statement
- expected intent C_k
- known, labeled dataset / unlabeled dataset
๋ชฉ์ : unlabeled dataset์ unknown intents ์ฐพ์๋ด๋ ๊ฒ
๋ณธ ๋ ผ๋ฌธ์์๋ unsupervised์ semi-supervised 2๊ฐ์ง ๋ชจ๋์ ๋ฐฉ๋ฒ์ ์ฌ์ฉํจ.
Overview
- MTP ๋จ๊ณ
- ์ธ๋ถ (external) data์ ๋ํด์๋ cross-entropy loss
- ๋ด๋ถ unlabeled data์ ๋ํด์๋ self-supervised loss
- CLNN ๋จ๊ณ
- top-K nearest neighbors๋ฅผ embedding space์ ํํ
- ์ดํ, contrastive learning with nearest neighbors ์ ์ฉ
- clustering algorithm → obtain clustering results
1. MTP
key method: pre-train์ ์ํด ํ์ฌ domain์ labeled data๊ฐ ์๋, ๊ณต๊ฐ๋ public data ์ฌ์ฉ
- pre-trained BERT encoder ์ฌ์ฉ
- joint pre-training loss
- ์ธ๋ถ labeled data์ ๋ํ cross-entropy loss: ์ธ๋ถ labeled data๋ ๋ค์ํ ๋๋ฉ์ธ์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉ
- ์ฃผ๋ก classification task์์๋ intent recognition์ ์ผ๋ฐ์ ์ธ ์ง์ ์ป์ผ๋ ค๋ ๊ฒ์ด ๋ชฉ์ ์
- ํ์ฌ ๋๋ฉ์ธ์ ๋ชจ๋ ๋ฐ์ดํฐ์ ๋ํ MLM loss
- self-supervised task์์๋ ๋ฐํ์ ํ์ฌ ๋๋ฉ์ธ์์์ ์๋ฏธ๋ฅผ ์ป๊ณ ์ ํจ
-> ์ดํ์ clustering task๋ฅผ ์ํ ์๋ฏธ์ ๋ฐํ ํํ์ ์ป์
Semi-supervised NID
์ดํ semi-supervised ๋ฐฉ์๊ณผ์ ๋น๊ต๋ฅผ ์ํด์๋ ์ ์์์ D-labeled-external์ (ํ์ฌ ๋๋ฉ์ธ์ ๋ฐ์ดํฐ์ธ) D-labeled-known์ผ๋ก ๋ฐ๊พธ๋ฉด์ ์ป์ ์ ์์
2. CLNN
key method: ์๋ฏธ์ ๊ณต๊ฐ์์ ์ด์ instance๋ค์ ๊ฐ๊น๊ฒ, ๋ฉ๋ฆฌ ๋จ์ด์ง instance๋ค์ ๋ฉ๋ฆฌ ํ๋ฉด์ compactํ clustering์ด ๊ฐ๋ฅํ๋๋ก ํจ
- PTM์ผ๋ก ๋ฐํ encode
- ๊ฐ ๋ฐํ x_i์ ๋ํด top-KNN์ ์ฐพ์ ์ด์ N_i๋ฅผ ํ์ฑํจ. (์ด๋ distance metric์ผ๋ก๋ inner product๋ฅผ ์ฌ์ฉ) - N_i์ ์ํ ๋ฐํ๋ค์ x_i์ ๋น์ทํ intent๋ฅผ ๊ณต์ ํด์ผ ํจ
- ์ด๋ neighborhood๋ ์ ๋นํ epoch๋ง๋ค update๋จ!
- ๋ฐํ์ minibatch ์ํ๋งํจ
4. Beta์ ์ํ๋ x_i์ ๋ํด N_i์์ ํ๋์ ์์ x_i’ ์์ฑ
5. data augmentation์ ํตํด x_i๋ฅผ ๊ธฐ๋ฐ์ผ๋ก \hat_{x_i}๋ฅผ, x_i’์ ๊ธฐ๋ฐ์ผ๋ก \hat_{x_i}’ ์์ฑ → ์ด๋ค์ x_i์ positive pair๋ค๋ก ๊ฐ์ฃผํจ
6. augmented batch ์ป์
7. contrastive loss ๊ณ์ฐ์ ์ํด 2M X 2M ํฌ๊ธฐ์ binary matrix ๋ง๋ค์ด
-> 1: positive, 0: negative ๋ํ๋ด๊ฒ ํจ
- C_i๋ \hat_{x_i}์ positive ๊ด๊ณ์ ์๋ instances์ ์งํฉ, |C_i|๋ ์งํฉ์ ๊ฐ์
- \hat_{h_i}๋ \hat_{x_i}์ embedding
- sim์ ์ ์ฌ๋ ๊ณ์ฐ function
Data Augmentation - RTR (Random Token Replacement)
augementation ๊ธฐ๋ฒ์ผ๋ก๋ Random Token Replacement๋ฅผ ์ฌ์ฉํจ.
unlabeled data๋ก๋ถํฐ keyword ์๋ณํ๋ ๊ฒ์ด ์ด๋ ค์ฐ๋ฏ๋ก ๋๋ค ํ ํฐ์ผ๋ก ์ ์ ์์ ํ ํฐ์ ๋์ฒดํ๋ ๊ฒ์ intent ์๋ฏธ๋ฅผ ๋ฐ๊พธ์ง ์์ ๊ฒ์
Advantages of CLNN
- ๋น์ทํ instance๋ค์ ๊ฐ๊น๊ฒ, ๋ค๋ฅธ instance๋ค์ ๋ฉ๋ฆฌ ์์น์ํด์ผ๋ก์จ ์ปดํฉํธํ cluster ์์ฑ ๊ฐ๋ฅ
- noisyํ pseudo label ์ฐ๋๊ฑฐ๋ณด๋ค embedding space์์์ ์ค์ ๊ฑฐ๋ฆฌ๋ ์์น๋ฅผ ํ์ฉํ ์ ์์
- logit์ ํด๋ฌ์คํฐ๋ง ํ๋ ๋์ ํน์ฑ ๊ณต๊ฐ์์ ์ง์ ์ต์ ํ → ๋ ํจ๊ณผ์ ์
- ์ธ์ ํ๋ ฌ (adjacency matrix)์ ์ฌ์ฉํด์ known intents ์์ฐ์ค๋ฝ๊ฒ ํตํฉ
Experiment
Details
Dataset
- CLINC150 - external public intent dataset: 10๊ฐ์ domain์ผ๋ก ๊ตฌ์ฑ: ๊ทธ์ค 8๊ฐ๋ง ์ฌ์ฉํ๊ณ ๋๋จธ์ง ์ญ์
- dataset splittraining validation test
BANKING 9003 1000 3080 StackOverflow 18000 1000 1000 M-CID 1220 176 349
Setup
Unsupervised & Semi-Supervised ๋๋ค ํ๊ฐ - unsupervised๋ก ํ๊ฐ ์์๋ labeled data๊ฐ ์๋ ์ฑ๋ก ๊ฐ์ฃผํ๊ณ ์คํ
- KCR: proportion of known intents ratio
- KCR = 0: unsupervised NID
- KCR > 0: semi-supervised NID
- KCR = {25%, 50%, 75%}
- LAR: proportion of labeled examples for each known intent
- labeled data๋ training data์์ ๋๋คํ๊ฒ ์ํ๋ง
- LAR = {10%, 50%}
Metric
NMI, ARI, ACC
Baselines
Implementation
- bert-base ๋ชจ๋ธ ์ฌ์ฉ: CLS ํ ํฐ์ BERT representation์ผ๋ก ์ฌ์ฉ
- MTP
- external dataset์ ๋ํด ์๋ ดํ ๋๊น์ง trainํจ
- labeled, known data train ํ ๋๋ development set ์ฌ์ฉํด์ early stopping
- CL
- 768-d BERT embedding์ 128-d ๋ฒกํฐ๋ก ์ฌ์: 2๊ฐ layer๋ก ์ด๋ฃจ์ด์ง MLP
- temperature: 0.07
- NN
- faiss (ํ์์ค) ๋ฅผ nearest neighbor ์ฐพ๋ inner product method๋ก ์ฌ์ฉ
- neighbor size K ์ค์ : K์ ๋ฐ๋ฅธ ๊ฐ ๋ฐ์ดํฐ์
์ ๋ํ ์ค์ฝ์ด๋ฅผ ์คํํ์ ๋ ๊ฐ์ฅ ์ข์ ์ค์ฝ์ด๋ฅผ ๋ณด์ธ K๋ค๋ก ์์
- BANKING, M-CID๋ 50
- StackOverflow๋ 500
- neighborsms 5epoch๋ง๋ค update
- data augmentation
- RTR ์ฌ์ฉ - probability 0.25
- model optimization
- AdamW
Result Analysis
- Unsupervised์์ strongest baseline์ด์๋ SAE-DCN๋ณด๋ค ์ค์ฝ์ด ๋์ → external public ๋ฐ์ดํฐ์ unlabeled internal utterance ๋๋ค ์ฌ์ฉํ๋๊ฑฐ ์ข๋ค
- Semi-supervised์์ KCL์ด 75%์ผ ๋์ 25%์ผ ๋๋ฅผ ๋น๊ตํ๋ฉด ์ฑ๋ฅ์ด 8.55%๋ฐ์ ์๋จ์ด์ง → MTP๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ด labeled-class์ ๋ ์์กด์ ์ธ ๊ฒ์ ๋ณด์ฌ์ค: label-effective ํจ
- MTP-CLNN์ด ์ฑ๋ฅ ์ ์ผ ์ข์
- Visualization: t-SNE๋ก visualization ํ๊ฑฐ ๋ณด๋ฉด MTP-CLNN์ด ์ ์ผ ์ปดํฉํธํ๊ฒ clustering ๋จ
Ablation Study
- Ablation Study on MTP
- MTP๋ฅผ ๋ ๋ถ๋ถ์ผ๋ก ๋ถํดํ ์ ์์
- PUB (supervised pre-training on external public data)
- MLM (self-supervised pre-training ong internal unlabeled data)
2. Ablation Study on neighborhood size K
- K์ ๋ฐ๋ฅธ ๋ถํฌ๊ฐ ๋ค๋ฅด๊ธด ํ์ง๋ง, MTP-CLNN > MTP ์
- Empirical (๊ฒฝํ์ ) estimation method: ๊ฐ training set์ ํฌํจ๋๋ ๊ฐ class์ ํ๊ท ์ ๋ฐ์ ์ด๊ธฐ K๋ก ์ค์
3. Exploration on Data Augmentation
RTR, SWR๊ฐ ๋ฒ๊ฐ์๊ฐ๋ฉด์ ์ฑ๋ฅ์ด ๋์ ๊ฒ์ ๋ณด์ - ๊ฐ๋จํ๊ฒ ๋ ผ๋ฌธ์์๋ ๊ทธ๋ฅ RTR๋ง ์
Conclusion & Limitations
Conclusion
MTP + CLNN ๋ฐฉ๋ฒ ์ผ์
Limitations
- balanced data์๋ง ์คํํ์ - ์ค์ ์ ๋น์ทํ imbalanced data์ ๋ํ ์คํ๋ ํ์ํจ
- cluster์ ๋ํ ํด์ ๋ฅ๋ ฅ์ด ๋ถ์กฑํจ - ๊ฐ unlabeled utterance์ cluster label์ ํ ๋นํ ์๋ ์์ง๋ง ๊ฐ cluster์ ๋ํ ์ ํจํ intent๋ฅผ ํ ๋นํ๊ธฐ ์ด๋ ค์
'๐ ๋ ผ๋ฌธ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
Beyond Candidates: Adaptive Dialogue Agent Utilizing Persona and Knowledge (0) | 2024.01.06 |
---|---|
IDAS: Intent Discovery with Abstractive Summarization (2) | 2023.10.10 |
Two Birds One Stone: Dynamic Ensemble for OOD Intent Classification (0) | 2023.08.28 |
Discovering New Intents with Deep Aligned Clustering (0) | 2023.08.16 |
A Probabilistic Framework for Discovering New Intents (0) | 2023.07.27 |