์ง๋๋ฒ DeepAligned Clustering ๋ ผ๋ฌธ์ ์ด์ด ์ด๋ฒ์๋ OOD intent classification์ ๊ดํ ๋ ผ๋ฌธ์ ์ฝ์๋ค.
๋ณธ ๋ ผ๋ฌธ์ 2023๋ ๋ ACL ํํ์ ์๋ก๋ ๋ ผ๋ฌธ์ด๋ฉฐ, ์ง๋๋ฒ ์ ์์ ๊ฐ์ Xipeng Qiu ๊ฐ ์ ์๋ก ์ฐธ์ฌํ๋ค.
Abstract
TODS์์ OOD intent classification์ ์ ๋ง ํ๋ฐํ๊ฒ ์ฐ๊ตฌ๋๋ ์ฃผ์ ์ด๋ค. ์ด ๋ถ์ผ์์๋ 2๊ฐ์ง๋ฅผ ์๊ตฌํ๋๋ฐ,
๋ฐ๋ก ๋ชจ๋ธ์ด '๋ฌด์์ ์๋๊ฐ'์ '๋ชจ๋ธ์ด ๋ฌด์์ ์์ง ๋ชปํ๋๊ฐ'์ด๋ค.
๋ณธ ๋ ผ๋ฌธ์์๋ open-world scenario์์์ overthinking๊ณผ OOD intent classification ๋ถ์ผ์์ ๊ทธ๊ฒ์ ์ํฅ๋ ฅ์ ๋ํด ํ๊ตฌํ๋ค.
๊ฒฐ๊ณผ์ ์ผ๋ก, ์ด ๋ชจ๋ธ์ ์ถ๋ก ๊ณผ์ ์์ OOD classification์ ์ผ์ฐ ๋ง๋ฌด๋ฆฌํ ์ ์๊ณ , ์ถ๋ก ์ ์ ํ๋์ ์๋๋ฅผ ํฅ์ํ๋ค.
๋, ๋์ ์ถ๋ก ๊ณผ์ (๋ชจ๋ธ์ด ์ถ๋ก ํ๋ ๋์ OOD ๋ถ๋ฅ ๊ฒฐ์ ์ ๋์ ์ผ๋ก ํ๋ ๊ฒ)์ ์ ์ฉํจ์ผ๋ก์จ ์์๋ธ ๊ธฐ๋ฒ ๊ธฐ๋ฐ์ training method๋ฅผ ์ ์ํ๋ค.
Introduction
TODS์ intent classification ๋ถ์ผ์์ ์ค์ํ 2๊ฐ์ง๋ IND intents์ ์ ํ์ฑ์ ๋ณด์ฅํ๋ ๊ฒ๊ณผ OOD intent๋ฅผ ์ ๋ถ๋ฅํ๋ ๊ฒ์ด๋ค.
๊ทผ๋์๋ PTM (Pre-Trained Models)์ ๋ง์ง๋ง layer๋ฅผ intent understanding์ผ๋ก ์ฌ์ฉํ๋ ๊ฒ์ด ์ฌ์ค์ ํ์ค์ด ๋๋ค.
๊ทธ๋ฌ๋ PTM์ closed-world scenario์์ ์ํ์ ์๋ฏธ์ ํน์ฑ์ ๋ํด overthinking ํ๋ ๊ฒ์ผ๋ก ์๋ ค์ ธ ์๋ค. ์ด๋ ๋ณดํต ์ฌ๋ฌ ๊ฒน์ transformer layer์ ๊ฑฐ์น๋ฉด์ ์์ฑ๋๋ ์ต์ ์๋ฏธ์ ํํ์ด ๋๋ฌด ๋ณต์กํด์ ธ, model์ ์ต์ข ๊ฒฐ์ ์๊น์ง ์ํฅ์ ์ฃผ๋ ๊ฒ์ด๋ค.
๊ทธ๋์ ๋ณธ ๋ ผ๋ฌธ์์๋ BERT์ ALBERT๋ฅผ ์ฌ์ฉํด์ IND์ OOD๋ฅผ ๊ตฌ๋ถํ๋ ๊ฒ์ ์์ด์๋ overthinking ํ๋์ง ํ์ธํ๋ค. ์ด๋ open-world scenario์์๋ PTM์ด overthinking ํ๋์ง ์์๋ณด๊ธฐ ์ํจ์ด๋ค.
1. ์คํ ๋ฐฉ๋ฒ
1. IC (Internal Classifier)์ ๊ฐ transformer layer์ ๋ถ์ฐฉํ๋ค.
2. ๋ถ์ฐฉ๋ IC๋ค์ ๋ ผ๋ฌธ์ ์ ์๋ 2๊ฐ์ง stage๋ก train ์ํจ๋ค.
์ด IC๋ค์ output์ IND์ OOD๋ฅผ ๊ตฌ๋ณํ๋ ๋ฅ๋ ฅ์ธ confidence์ uncertainty๋ฅผ ์ธก์ ํ๋ค. ์ฌ๊ธฐ์ confidence๊ฐ ๋๊ณ uncertainty๊ฐ ๋ฎ์ผ๋ฉด IND, ๋ฐ๋์ด๋ฉด OOD์ด๋ค.
2. ์คํ ๊ฒฐ๊ณผ
๋ถ์ ์ ์ Pred Entropy๋ก, ๋ชจ๋ธ์ internal layer๋ค์ ์ํ output์ entropy(ํ๊ท ๊ฐ)์ธ๋ฐ, ์ด๋ output์ certainty๋ฅผ ์ธก์ ํ๊ธฐ ์ํด ์ฌ์ฉ๋๋ค.
- ๋์ ์ํธ๋กํผ- ๋ชจ๋ธ์ ์์ธก์ ๋ํ ๋ถํ์ค์ฑ์ด ๋์
- ๋ฎ์ ์ํธ๋กํผ - ๋ชจ๋ธ์ด ํด๋น ์์ธก์ ๋ํด ๋ ํ์ ํ๊ณ ์์
๊ทธ๋ํ์์ layer๋ฅผ ์ง๋ ์๋ก certainty๊ฐ ์ ์ฐจ ๊ฐ์ํ๋ ๊ฒ์ ๋ณผ ์ ์๋ค.
Diff ์ปค๋ธ๋ ๋ชจ๋ IND ์ํ๊ณผ OOD ์ํ์ ์ ๋ขฐ๋(ํ๊ท ๊ฐ) ๊ฐ์ ์ฐจ์ด์ ๋ณํ ์ถ์ธ๋ฅผ ๋ํ๋ธ๋ค. ์ฌ๊ธฐ์ ํ๋์์ ์ ๋ขฐ๋๋ฅผ, ์ฃผํฉ์์ ์ํธ๋กํผ๋ฅผ ๋ํ๋ธ๋ค. ์ด ์ฐจ์ด๊ฐ ํฌ๋ฉด ๋ชจ๋ธ์ด IND์ OOD ์ํ์ ์ ๊ตฌ๋ถํ๋ค๋ ๊ฒ์ ์๋ฏธํ๊ณ , ์ฐจ์ด๊ฐ ์์์ง๋ฉด ๋ชจ๋ธ์ด ๋ ์ํ ํ์ ์ ์ ๊ตฌ๋ถํ์ง ๋ชปํ๋ค๋ ๊ฒ์ ๋ํ๋ธ๋ค.
layer๋ฅผ ํต๊ณผํ ์๋ก ์ด ์ฐจ์ด๊ฐ ์ ์ ์ปค์ง๋ค๊ฐ ๋ง์ง๋ง์๋ ์กฐ๊ธ ๊ฐ์ํ๋ ์ถ์ธ๋ฅผ ๋ณด์ด๋๋ฐ, ์ด๋ ์ด๋ฐ ๋ช layer์ ํต๊ณผํ ๋ ์ํ๋ค์ ๊ตฌ๋ณํ๋ ๋ฅ๋ ฅ์ด ๋ฐ์ด๋๋ค๊ฐ, ํ๋ฐ์๋ ๊ตฌ๋ณ ๋ฅ๋ ฅ์ด ๋จ์ด์ง๊ฒ ๋๋ค๋ ๊ฒ์ ๋ปํ๋ค.
3. ๊ฒฐ๊ณผ ๋ถ์
๋ณธ ๋ ผ๋ฌธ์์ ๋ถ์ํ ๊ฒฐ๊ณผ๋ ๋ค์๊ณผ ๊ฐ๋ค:
- open-world scenario์์๋ PTM์ IND์ OOD์ ์ฐจ์ด๋ฅผ ์ํด overthinking ํ๋ค.
- ๋ค์ํ scenario์์ overthinking ํ๋ model์ IND์ OOD๋ฅผ ๊ตฌ๋ณํ๊ฑฐ๋, ์ถ๋ก ์ค IND์ ํน์ class๋ฅผ ์๋ณํ๊ธฐ ์ํด ๋ง์ง๋ง ๊ณ์ธต์ ์ ๋ฌํ๋ ๊ฒ์ ๋ถํ์ํ๋ค.
์ด์ ๋ํ ํด๊ฒฐ ๋ฐฉ์์ผ๋ก, ๋ณธ ๋ ผ๋ฌธ์์๋ ๋ค์ ์ ๋ ฅ์ ์ ์ํ๋ค.
1. ์ถ๋ก ์ ๋ต: ์ ๋ฌ๋ IC์ ๋์ ์์๋ธ
-> IC๊ฐ ์ผ์ฐ ํ์ถ (exit) ํ๊ธฐ ์ํ ์ถฉ๋ถํ confidence๊ฐ ์์ ๋ ํฌํํด์ sample์ด IND์ธ์ง OOD์ธ์ง ํ๋จํ๋ค.
2. ์ถ๋ก ๋จ๊ณ์์ ์ ํํ๊ณ ๋น ๋ฅธ ํ์์ ์ ์ํ ์ ์๋ training method ๋์
- ํ๋ จ ๊ณผ์ ์์ IC ๊ฐ์ ์ค๋ณต์ฑ์ ์ค์์ผ๋ก์จ IC์ ๋ค์์ฑ์ ๋์ฌ IND์ ์ธ์ ๋ฅ๋ ฅ์ ํฅ์ํ๋ค.
- open space risk (๋ชจ๋ธ์ด ํ์ตํ์ง ์์ ๋ถ๋ถ์ ๋ํ ์์ธก)์ ํ๋ จ ๊ณผ์ ์์ ๊ฐ ํ๋ จ ์ํ์ ๊ทผ์ ํ ์์ญ์ ์ธ์ง ํ๋์ ์กฐ์ ํจ์ผ๋ก์จ ์ค์ด๊ณ , ์ด๋ฅผ ํตํด OOD ๊ฐ์ง ๋ฅ๋ ฅ์ ํฅ์ํ๋ค.
4. ์์ฝ
- open-world scenario์์ overthinking ํ์์ ํ๊ตฌํ๊ณ ํด๋น ํ์์ IND์ OOD ๊ตฌ๋ถ์์์ ์ํฅ์ ๋ํด ํ๊ตฌํ๋ค.
- ๊ฐ๋จํ๊ณ ํจ์จ์ ์ธ ์ถ๋ก ์ ๋ต์ผ๋ก model ์ธ์ง ๋ฅ๋ ฅ๊ณผ model ์ถ๋ก ์ ์๋๋ฅผ ํฅ์ํ๋ค.
- ์คํ์ ํตํด ์ ์๋ ๋ฐฉ๋ฒ์ด ์ ํ์ฑ์ ๋์ด๊ณ ์ถ๋ก ์ ํจ์จ์ ์ผ๋ก ๊ฐ์ํํ ์ ์๋๋ก ํ๋ค.
Method
early exiting์ ์ํด BERT์ ๊ฐ layer์ IC๋ฅผ ๋ถ์ฐฉํ๋ค.
Z_l์ IC์ ์ํด ์์ฑ๋ l๋ฒ์งธ layer์ output, Z_(1:l)์ ์ฒซ ๋ฒ์งธ๋ถํฐ l๋ฒ์งธ layer๊น์ง์ IC์ joint output์ผ๋ก ์ ์ํ๊ณ , φ๋ฅผ ์ถ๋ก (์์๋ธ) ์ ๋ต์ผ๋ก ์ ์ํ๋ค.
1. Training Objective
Training ICs as an Ensemble
์ฐ์ training sample์ IND sample ๋ฟ์ด๋ผ๋ ๊ฒ์ ์ธ์งํด์ผ ํ๋ค. ์ด๋ ๊ฒ IND sample๋ง ๊ฐ์ง๊ณ ์คํํ๋ ๊ฒ์ด OOD ๊ตฌ๋ณ์ ์ ์ํฅ์ ๋ฏธ์น๋ ๊ฒ์ด ์๋์ง ์ฐ๋ ค๊ฐ ์์ง๋ง, ์คํ๋ ค ์ด๋ ๊ฒ ๊ตฌ์ฑ๋ sample์ ์คํ๋ ค IND ๋ฐ๊ฒฌ๊ณผ OOD ๊ฐ์ง์ ๋์์ด ๋๋ค๊ณ ํ๋ค.
(https://arxiv.org/abs/2110.06207)
์ต์ข ๋ชฉํ๋ ์ ํ์ฑ์ ์์ง ์์ผ๋ฉด์ ์ถ๋ก ์ ๊ฐ์ํํ๋ ๊ฒ์ด๊ธฐ ๋๋ฌธ์, ์ด IND sample์ด 1๋ถํฐ l๋ฒ์งธ layer์ ํต๊ณผํ ๊ฒ์ ๋ํ ์ถ๋ก ์ด label Y์ ๊ฐ๊ฒ ํด์ผ ํ๋ค. ์ฆ ๋ค์ ์์ ๋ง์กฑํด์ผ ํ๋ค:
Y๋ ground truth label์ด๋ค.
์ ์์ ์ฌ์ ์ฐ๊ตฌ์ ์ํด ๋ค์๊ณผ ๊ฐ์ ์ํ์ ๊ฐ๋๋ค๊ณ ์ฆ๋ช ๋ ๋ฐ๊ฐ ์๋ค.
์ฌ๊ธฐ์ Ent(Y)๋ ๋๋ค ๋ณ์ Y์ entropy๋ฅผ, I(Z_(1:l);Y)๋ Z_1:l๊ณผ Y์ mutual information, ์ํธ ์ ๋ณด๋ฅผ ๋ํ๋ธ๋ค.
์ฐ๋ฆฌ๋ ์๋ ๋ชฉ์ ํ๋ฅ ์ธ p(φ(Z_(1:l) /= Y))๋ฅผ ์ ์ํ์ ์ํด I๋ฅผ ์ต๋ํ์ํด์ผ๋ก์จ ์ต์ํ์ํฌ ์ ์๋ค.
๊ทธ๋ฌ๋, Z์ Y์ ์ง์์ ์กฐํฉ ์์ฑ์ผ๋ก ์ธํด, ์ด ๊ฒฐ๊ณผ๋ฅผ ๋ฐ๋ก ๊ณ์ฐํ ์ ์์ด, ์ฌ์ ์ฐ๊ตฌ์ ์ํด ์ ์๋ ํํ์ ๋ค์๊ณผ ๊ฐ์ด ๋ํ๋ผ ์ ์๋ค:
๋ ํญ์ ์กฐ๊ธ ๋ ์ดํด๋ณด์.
L_rel์ด๋ผ๊ณ ํ๊ธฐ๋ ์ ํญ์ Z_i์ Y์ mutual information์ ํฉ์ ๋ํ๋ด๊ณ , ์ด๋ฅผ relevancy๋ผ๊ณ ์นญํ๋ค. ์ด๋ ํด๋น ๊ณ์ธต์ ์ถ๋ ฅ์ด label๊ณผ ์ผ๋ง๋ ๋ฐ์ ํ ๊ด๊ณ๋ฅผ ๋ํ๋ด๋์ง ๋ณด์ฌ์ค๋ค.
L_red๋ผ๊ณ ํ๊ธฐ๋ ๋ท ํญ์ classifier ๊ฐ ์ํธ ์์กด์ ๋ํ๋ด๊ณ , ์ด๋ฅผ redundancy๋ผ๊ณ ์นญํ๋ค. ์ฆ ๋ค๋ฅธ ์ถ๋ ฅ์ธต๋ค ๊ฐ ์ผ๋ง๋ ๋ง์ ์ค๋ณต ์ ๋ณด๊ฐ ์๋์ง ๋ณด์ฌ์ค๋ค.
์์ ์ฐ๊ตฌ์ ๋ฐ๋ฅด๋ฉด, L_rel์ -L_ce(z_i, y)๋ก, L_red๋ -min_(j<i) L_ce(z_i, z_j)๋ก ๋ํ๋ผ ์ ์๋ค. ์ด๋ฅผ ์ด์ฉํด์ z๋ฅผ ๊ธฐ์ค์ผ๋ก Loss ํจ์๋ฅผ ์์ฑํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค:
L_ce๋ standard cross entropy loss, z_i๋ i๋ฒ์งธ์ ์ ๋ ฅ๋ internal representation, y๋ ์ค์ Label์ด๋ค.
์ํ์ ๋ฒ ํ๋ ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ๋ํ๋ธ๋ค.
Training ICs as an Ensemble
์ฌ์ ์ฐ๊ตฌ์ ๋ฐ๋ฅด๋ฉด, open space risk๋ฅผ ์ค์์ผ๋ก์จ OOD ๊ฐ์ง๋ฅผ ๋์ผ ์ ์๋ค๋ ์ ๋ณด๊ฐ ์์๋ค.
์ด์ open space risk ๊ด๋ จ ์์ ๋ํ๋ด๋ฉด ๋ค์๊ณผ ๊ฐ๋ค:
O๋ open space, f๋ ๋ถ๋ฅ๊ธฐ์ธ๋ฐ, x๊ฐ IND intent์ด๋ฉด 1 ์ด์, ์๋๋ฉด 0 ์ดํ์ ๊ฐ์ ์ถ๋ ฅํ๋ค. ๋ S๋ O๋ฅผ ํฌํจํ ์ ์ฒด์ ์ธ ์๋ฏธ์ ๊ณต๊ฐ์ด๋ค.
training sample (IND intent)๋ฅผ ์ด์ฉํ๋ฉด, open space O๋ ๋ค์๊ณผ ๊ฐ์ด ์ฌ์ ์๋ ์ ์๋ค.
์ฌ๊ธฐ์ σ(z)๋ z ๊ทผ์ฒ์ ์ต์ ์๋ฏธ์ ๊ณต๊ฐ์ ๋ปํ๋ค.
์ด๋ฅผ ์ด์ฉํด์ ๋ค์ open space risk ์์ ์์ฑํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค:
S๋ ์ ์ฒด ๊ณต๊ฐ์ด๋ฏ๋ก, ๋ง์ง๋ง ์์์์ ๋ถ๋ชจ๋ ๋ณํ์ง ์๋๋ค.
๊ทธ๋ฌ๋ฏ๋ก open space risk๋ฅผ ์ค์ด๊ธฐ ์ํด์๋ ๋ถ์๋ฅผ ์ต๋ํ์์ผ R_o(f)๋ฅผ ์ต์ํ์ํค๋ ๊ฒ์ด ๋ชฉํ์ด๋ค.
๊ทธ๋ ๋ค๋ฉด ๋ถ์๊ฐ ๋ปํ๋ ๊ฑด ๋ฌด์์ผ๊น?
๋ถ์์์์ ์ ๋ถ์ ํด์ํ๋ฉด z(IND intent์ ์๋ฏธ์ ํน์ง)์ ๊ทผ์ฒ ์ต์์ ์๋ฏธ์ ๊ณต๊ฐ์ ๊ธฐ์ค์ผ๋ก ํ f ํจ์์ ์ ๋ถ์ ๋ปํ๋ค.
f๋ IND intent์ผ ๋ ๊ฐ์ด 1 ์ด์, ์๋ ๋ ๊ฐ์ด 0 ์ดํ์ธ ๋ถ๋ฅ๊ธฐ์ด๋ฏ๋ก,
์ด ๋ถ์ ๊ฐ์ ์ต๋ํ์ํค๊ธฐ ์ํด ์ง๊ด์ ์ผ๋ก ์๊ฐํด ๋ณด๋ฉด, z์ ์ฃผ๋ณ ์๋ฏธ์ ๊ณต๊ฐ์ point๋ค์ด ๊ฐ๋ฅํ IND๋ก ์ธ์๋๋๋ก ๊ตฌ์ฑํด์ผ ํ๋ค.
๊ทธ๋ฌ๋ ์๋ฏธ์ ๊ณต๊ฐ์ sample point๋ค์ด ๋งค์ฐ ๋ง์ผ๋ฏ๋ก,
๋ณธ ๋ ผ๋ฌธ์์๋ ์ ๋์ ์์ ๊ธฐ๋ฒ์ ์ฌ์ฉํด์ z^~๋ฅผ ์ ๋ณํ์ฌ ์ด๋ค์ด ๋ชจ๋ IND๋ก ์ธ์๋๊ฒ ํ๋ค.
z^~๋ ์ด๋ฏธ z์ label๊ณผ ์ผ์นํ๋ sample์ ๋ปํ๋ค.
์์ ๋ค์๊ณผ ๊ฐ๋ค:
์ฌ๊ธฐ์ τ^*๋ ํธ์ฐจ ๋ฒกํฐ์ด๋ค. ๋ค์ ์์์ L์ ๋ชจ๋ธ์ ์์ค ํจ์, z๋ ์๋์ ์ ๋ ฅ feature ๋ฒกํฐ๋ฅผ ๋ํ๋ด๋ฉฐ, z^~๋ z์ ๋ณํ ๋ฒกํฐ τ๋ฅผ ์ถ๊ฐํ์ฌ ์ป์ ์๋ก์ด feature ๋ฒกํฐ์ด๋ค.
๋ฐ๋ผ์, ์ด ์์ ๋ชจ๋ ๊ฐ๋ฅํ τ ๋ฒกํฐ ์ค์์ L์ ์ต๋ํํ๋ ๋ฒกํฐ๋ฅผ ์ฐพ๋ ๊ฒ์ ์๋ฏธํ๋ค. ์ด๋ ๊ฒ ์ ํ๋ τ^* ๋ ์๋์ ์ ๋ ฅ z์ ๊ฐ์ฅ ํฐ ์ํฅ์ ์ฃผ๋ ๋ณํ ๋ฒกํฐ๋ก ๋ณผ ์ ์๋ค.
์ด๋ ์ ๋์ ์์ ์์ฑ์์ ์ฌ์ฉ๋๋ ๊ธฐ๋ณธ ์์ด๋์ด๋ก, ์๋์ ์ ๋ ฅ์ ๊ฐ๋ฅํ ํ ์์ ๋ณํ๋ฅผ ์ถ๊ฐํ์ฌ ๋ชจ๋ธ์ ์์ธก์ ํฌ๊ฒ ๋ฐ๊พธ๋ ค๋ ๊ฒ์ด๋ค.
Final finetune Objective
์์ ์์ loss ํจ์์ ๋์ ํ์ฌ ๋ํ๋ด๋ฉด ๋ค์๊ณผ ๊ฐ๋ค:
๊ทธ๋ผ ์ต์ข loss๋ ๋ loss ํจ์๋ฅผ ๋ํ ๊ฒ์ด ๋๋ค.
์ ๊ณผ์ ์ ํ๋์ ๊ทธ๋ฆผ์ผ๋ก ๋ํ๋ด๋ฉด ๋ค์๊ณผ ๊ฐ๋ค:
2. Inference Stategy
์ถ๋ก ์ค, input sample x_i์ ๋ํด l๋ฒ์งธ IC์์ ์ถ๋ก ํ๋ label \hat {Y}_l์ ๋ค์๊ณผ ๊ฐ๋ค:
๊ธฐํธ (G)๋ scoring function์ธ๋ฐ (๋ณธ ๋ ผ๋ฌธ์์๋ LOF์ด ์ฌ์ฉ๋์๋ค.), ์ด ๊ฐ์ด θ_l๋ณด๋ค ์์ผ๋ฉด OOD, ํฌ๊ฑฐ๋ ๊ฐ์ผ๋ฉด IND๋ก ํ๋จํ๋ค. H๋ softmax function, K๋ IND intent์ ์ด ์์ด๋ค.
์ต์ข ๊ฒฐ์ ์ ์ฌํ ์ง๋๊ฐ ๋ชจ๋ IC๋ค์ ํฌํ๋ก ๊ฒฐ์ ๋๊ณ , ๊ทธ ํน์ class๊ฐ ์ผ์ threshold(์๊ณ์น) ์ด์์ด๋ฉด ์ต์ข ๊ฒฐ๊ณผ๋ก ์ฌ๊ธฐ๊ณ early exit ํ๋ค.
l๋ฒ์งธ layer์์ ์ฌ์ฉ๋๋ ์ถ๋ก ์ ๋ต ์์ ๋ค์๊ณผ ๊ฐ๋ค:
H๋ IND์ OOD๋ฅผ ํฌํจํ set, γ๋ ํ์ดํผํ๋ผ๋ฏธํฐ์ด๋ค.
φ(Yˆ1:l)์ ๊ฐ์ด ํน์ threshold๋ณด๋ค ํด ๊ฒฝ์ฐ, ์ด sample์ ํน์ l๋ฒ์งธ layer์์ ํ์ถํ์ฌ
IND ์ผ ๊ฒฝ์ฐ, IND label์ด ์ฃผ์ด์ง๊ณ , OOD์ผ ๊ฒฝ์ฐ OOD๋ก ํ๋จ๋๋ค.
์ด๋ ๊ฒ, ์ด๊ณผ์ ์ ๋ค์ ๊ทธ๋ฆผ๊ณผ ๊ฐ๋ค:
Experiment
๋ณธ ์ฐ๊ตฌ๋ ๋ค์ 3๊ฐ์ง ๋ฐ์ดํฐ์ ์ ๋ํด ์คํํ๋ค:
- CLINC-FULL
- BANKING
- StackOverflow
Metrics
1. ์ ํ์ฑ ๊ด๋ จ
OOD ํด๋์ค๋ค์ ํ๋์ ์ฑ๊ธ ๊ฑฐ์ ๋ ํด๋์ค๋ก ์ฌ๊ธด๋ค.
F1-IND์ F1-OOD๋ ๊ฐ๊ฐ IND์ OOD ํด๋์ค์ ๊ฐ์ macro F1-score์ ๋ํ๋ธ๋ค.
๋ํ model์ ์ต์ข effectiveness๋ฅผ ๊ณ์ฐํ๊ธฐ ์ํด accuracy score๊ณผ F1-score์ ๊ณ์ฐํ๋๋ฐ, ์ด๋ค์ ๊ฐ๊ฐ ACC-ALL๊ณผ F1-ALL์ด๋ผ๊ณ ํ๋ค.
2. early exit ๊ด๋ จ
early exit์ ๊ตฌ์ฒด์ ์ธ ๊ณ์ฐ์ ๋ค์๊ณผ ๊ฐ๋ค:
L์ layer์ ์, N_l์ l layer์์ exit ํ๋ ์ํ์ ์๋ฅผ ๋ปํ๋ค.
Experimental Setting
1. ์ฐ์ ๋ฐ์ดํฐ์
์ training, valid, test 3๊ฐ์ง์ ๋ฌถ์์ผ๋ก ๋ถ๋ฅํ๋ค.
(OOD์ ํด๋นํ๋ class๋ training set์์ ์ ์ธ๋๊ณ test set๊น์ง ๋ณด์กด๋๋ค.)
2. ์ ์ฒด intent์ 25%๋ฅผ IND๋ก ์ ๋ณํ๋ ๋ฐ์ดํฐ ๋ฌถ์๊ณผ 75%๋ฅผ IND๋ก ์ ๋ณํ๋ ๋ฌถ์์ 2๊ฐ์ง ๋ฐ์ดํฐ์ ์กฐํฉ์ ๋ง๋ ๋ค.
3. BERT (12 layers)๋ฅผ ์ฌ์ฉํ๊ณ , ๊ฐ์ฅ ๋๋ฆฌ ์๋ ค์ง ํ์ดํผํ๋ผ๋ฏธํฐ๋ก fine-tuning ํ๋ค.
4. Loss ์์์์ Alpha(Alpha~)์ Beta(Beta~)๋ฅผ ๊ฐ๊ฐ 1.0๊ณผ 0.1๋ก ๊ณ ์ ํ๋ค.
5. OOD ๊ฐ์ง ๋ฐฉ์์ผ๋ก๋ LOF๋ฅผ ์ฌ์ฉํ๋ค. LOF์๋ ๋ค๋ฅธ ๋ฐฉ์๋ค๊ณผ ๋ฌ๋ฆฌ ๊ฑฐ๋ฆฌ๋ฅผ ๊ณ์ฐํ๋ ๊ฒ์ ์์ด ์ข์ ๋ฐฉ์์ด ์์ผ๋ฏ๋ก cosine ์ ์ฌ๋๋ฅผ ์ฌ์ฉํ๋ค. ๋ LOF์ threshold(์๊ณ์น)๋ฅผ validation set์ ์ด์ฉํด์ ์ ์ ํ๋ค.
6. KNN๊ณผ ๊ฐ์ ๋ค๋ฅธ ์คํ์ ํด์ ๋ณธ ๋ ผ๋ฌธ์์ ์ ์ํ ๋ฐฉ๋ฒ์ ์ผ๋ฐ์ฑ๊ณผ ํจ์จ์ฑ์ ์ ์ฆํ๋ค.
Results
์ ๊ฒฐ๊ณผ๋ค์ BANKING๊ณผ StackOverflow, CLINC-FULL ๋ฐ์ดํฐ์ ๊ดํ ๋ณธ ๋ ผ๋ฌธ์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ ์ค๋ค.
๊ฒฐ๊ณผ๋ฅผ ๋ณด๋ฉด ๋ชจ๋ ๊ฒฐ๊ณผ์ ๋ํด speed-up๋ง ๋์ง ์์์๋ฟ๋๋ฌ, IND recognition์ ๊ฐํํ๋ฉด์ OOD detection์ ํจ๊ณผ์ ์ผ๋ก ์ํํ๋ค: ์ด๋ ๋ณธ ๋ ผ๋ฌธ์ ๋ฐฉ๋ฒ์ด ๋น ๋ฅด๊ณ ํจ๊ณผ์ ์์ ๋ณด์ฌ ์ค๋ค.
๋ ๊ฒฐ๊ณผ์ ๋ํด ๋ ์์ธํ ๋ถ์ํด ๋ณด๋ฉด, speed-up ์ด ๋์ผ๋ฉด ๋์ฒด๋ก ์ ํ์ฑ๋ ๋๊ณ , speed-up์ด ๋ฎ์ผ๋ฉด ๋์ฒด๋ก ์ ํ์ฑ์ด ๋ฎ๋ค๋ ์ฌ์ค์ ๋ณด์ฌ ์ค๋ค. ์ฆ speed-up๊ณผ ๋ชจ๋ธ์ ํจ๊ณผ๊ฐ ๋น๋กํ๋ค.
์ด๋ ๋ชจ๋ธ์ ๊ฒฐ์ ์ด ๋์ค์ ๋ง๋ค์ด์ง์๋ก, ๋ง์ง๋ง level์ ๋ฏธ์น๋ ์ํฅ์ด ์ปค์ง๋ค๋ ๊ฒ์ ๋ปํ๋ค.
์ด๋ dynamic decision making์ ํ์์ฑ์ ์ ์ฆํ๊ธฐ๋ ํ๋๋ฐ, ๋ชจ๋ธ์ ๋ง์ง๋ง layer์ ์์กดํ ํ์ ์์ด ๋ ๋ฆฝ์ ์ผ๋ก decision์ ๋ง๋ค์ด์ผ ํ๋ค.
Analysis
1. A Closer Look at Internal Layers
(a)์ (b)๋ฅผ ๋ณด๋ฉด, ๋ชจ๋ธ์ ๊ฐ layer์์์ ์ฑ๋ฅ์ ๋ณด์ฌ ์ค๋ค. ์ฌ๊ธฐ์ overthinking ํ์์ ๋ฐ๊ฒฌํ ์ ์๋ค. Internal layer๊ฐ best performance๋ฅผ ๋ฌ์ฑํ ์๊ฐ, ๋ชจ๋ธ์ด fluctuate ํ๊ฑฐ๋ ์ฌ์ง์ด ์ฑ๋ฅ์ด ๋ฎ์์ง๋ ํ์์ ๋ณผ ์ ์๋ค. ์ด์ early exit ๋ฉ์ปค๋์ฆ์ด overthinking์ ๋ง์์ฃผ๊ณ ์ ํ์ฑ์ ๋์ผ ์ ์๋ค.
(c)์ (d)๋ฅผ ๋ณด๋ฉด, exiting sample๋ค์ ๋ณด์ฌ์ฃผ๋๋ฐ, ์ฌ๊ธฐ์ ๊ฑฐ์ ๋ชจ๋ ์ํ๋ค์ด early exit ํด๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค๋ ๊ฒ์ ์ ์ ์๋ค. ์ด๋ ์ํ๋ค์ด early exiting ํ๊ฒ ๋์์ฃผ๊ณ intent recognition์ ์ ํ์ฑ๋ ๋ณด์ฅํ๋ ๋ณธ ๋ ผ๋ฌธ์ ๋ฐฉ์์ ์ ์ฆํ๋ค.
2. Importance of Training Methods
์ด ์น์ ์์๋ ๋ณธ ๋ ผ๋ฌธ์์ ์ ์ํ training ์ ๋ต์ ํจ๊ณผ๋ฅผ ํ๊ตฌํ๊ธฐ ์ํด AVG., Joint, Ensemble ๋ฐฉ์๋ค๊ณผ ๋น๊ตํ๋ค.
๊ฒฐ๊ณผ๋ ๋ค์๊ณผ ๊ฐ๋ค:
์ด๋ ๋ณธ ๋ ผ๋ฌธ์ training ๋ฐฉ๋ฒ์ด ์ถ๋ก ์ ๋ ์ข์ ๋ฐฉ์์์ ๋ณด์ฌ ์ค๋ค.
3. Effect of Inference Strategy
์ด ์น์ ์์๋ ์ถ๋ก ์ ๋ต์ ๋ํ ํจ๊ณผ๋ฅผ ํ๊ตฌํ๊ธฐ ์ํด Random, Concat., Pabee์ ๋น๊ตํ๋ค. ๊ฒฐ๊ณผ๋ ๋ค์๊ณผ ๊ฐ๋ค:
4. Compatibility with Other Detection methods?
๋ณธ ๋ ผ๋ฌธ์์๋ OOD Detection์ ์ํด LOF ๋ฐฉ์์ ์ฌ์ฉํ๋ค.
๋ณธ ๋ ผ๋ฌธ์์๋ ์ด ๋ฐฉ์์ ์ผ๋ฐ์ฑ์ ์ ์ฆํ๊ธฐ ์ํด KNN๊ณผ KNN-CL์ ํตํด ๋น๊ตํ๋ค. ๊ฒฐ๊ณผ๋ ๋ค์๊ณผ ๊ฐ๋ค:
Conclusion
๋ณธ ๋ ผ๋ฌธ์์๋ PTM์ด open-world scenario์์๋ overthinking ํ๋์ง์ ๋ํด ํ๊ตฌํ๋ฉฐ ๊ทธ๊ฒ์ด IND์ OOD ๊ตฌ๋ถ์ ์์ด ์ด๋ค ์ํฅ์ ๋ฏธ์น๋๊ฐ์ ๋ํด ์์๋ณธ๋ค. ๊ทธ ๊ณผ์ ์์ two-birds-one-stone(์ผ์์ด์กฐ) ๋ฐฉ๋ฒ์ ์ ์ํ๋๋ฐ, ์ด๋ ์ถ๋ก ๊ณผ์ ์์ ๋ชจ๋ธ์ด ๋ง์ง๋ง layer์ ๊ฑฐ์น์ง ์๊ณ ์ผ์ฐ ํ์ถํ๋ early exiting ๋ฐฉ๋ฒ์ ์ฌ์ฉํด ์ถ๋ก ์ ์ ํ์ฑ๊ณผ ์๋๋ฅผ ๋ชจ๋ ๊ฐ๊ฒ ๋๋ ๊ฒ์ ๋ปํ๋ค.
๋ํ dynamic inference์ ์ ์ฉํ ์ ์๋ ํ๋ จ ๋ฐฉ์์ ์ ์ฉํ๋ค.