๐Ÿ“š ๋…ผ๋ฌธ

Two Birds One Stone: Dynamic Ensemble for OOD Intent Classification

์žฅ์˜์ค€ 2023. 8. 28. 15:03

์ง€๋‚œ๋ฒˆ DeepAligned Clustering ๋…ผ๋ฌธ์— ์ด์–ด ์ด๋ฒˆ์—๋Š” OOD intent classification์— ๊ด€ํ•œ ๋…ผ๋ฌธ์„ ์ฝ์—ˆ๋‹ค.

๋ณธ ๋…ผ๋ฌธ์€ 2023๋…„๋„ ACL ํ•™ํšŒ์— ์ˆ˜๋ก๋œ ๋…ผ๋ฌธ์ด๋ฉฐ, ์ง€๋‚œ๋ฒˆ ์ €์ž์™€ ๊ฐ™์€ Xipeng Qiu ๊ฐ€ ์ €์ž๋กœ ์ฐธ์—ฌํ–ˆ๋‹ค.


Abstract

TODS์—์„œ OOD intent classification์€ ์ •๋ง ํ™œ๋ฐœํ•˜๊ฒŒ ์—ฐ๊ตฌ๋˜๋Š” ์ฃผ์ œ์ด๋‹ค. ์ด ๋ถ„์•ผ์—์„œ๋Š” 2๊ฐ€์ง€๋ฅผ ์š”๊ตฌํ•˜๋Š”๋ฐ,

๋ฐ”๋กœ ๋ชจ๋ธ์ด '๋ฌด์—‡์„ ์•„๋Š”๊ฐ€'์™€ '๋ชจ๋ธ์ด ๋ฌด์—‡์„ ์•Œ์ง€ ๋ชปํ•˜๋Š”๊ฐ€'์ด๋‹ค.

๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” open-world scenario์—์„œ์˜ overthinking๊ณผ OOD intent classification ๋ถ„์•ผ์—์„œ ๊ทธ๊ฒƒ์˜ ์˜ํ–ฅ๋ ฅ์— ๋Œ€ํ•ด ํƒ๊ตฌํ•œ๋‹ค.

๊ฒฐ๊ณผ์ ์œผ๋กœ, ์ด ๋ชจ๋ธ์€ ์ถ”๋ก  ๊ณผ์ •์—์„œ OOD classification์„ ์ผ์ฐ ๋งˆ๋ฌด๋ฆฌํ•  ์ˆ˜ ์žˆ๊ณ , ์ถ”๋ก ์˜ ์ •ํ™•๋„์™€ ์†๋„๋ฅผ ํ–ฅ์ƒํ•œ๋‹ค.

๋˜, ๋™์  ์ถ”๋ก  ๊ณผ์ • (๋ชจ๋ธ์ด ์ถ”๋ก ํ•˜๋Š” ๋™์•ˆ OOD ๋ถ„๋ฅ˜ ๊ฒฐ์ •์„ ๋™์ ์œผ๋กœ ํ•˜๋Š” ๊ฒƒ)์„ ์ ์šฉํ•จ์œผ๋กœ์จ ์•™์ƒ๋ธ” ๊ธฐ๋ฒ• ๊ธฐ๋ฐ˜์˜ training method๋ฅผ ์ œ์‹œํ•œ๋‹ค.


Introduction

TODS์˜ intent classification ๋ถ„์•ผ์—์„œ ์ค‘์š”ํ•œ 2๊ฐ€์ง€๋Š” IND intents์˜ ์ •ํ™•์„ฑ์„ ๋ณด์žฅํ•˜๋Š” ๊ฒƒ๊ณผ OOD intent๋ฅผ ์ž˜ ๋ถ„๋ฅ˜ํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

๊ทผ๋ž˜์—๋Š” PTM (Pre-Trained Models)์˜ ๋งˆ์ง€๋ง‰ layer๋ฅผ intent understanding์œผ๋กœ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด ์‚ฌ์‹ค์ƒ ํ‘œ์ค€์ด ๋๋‹ค.

๊ทธ๋Ÿฌ๋‚˜ PTM์€ closed-world scenario์—์„œ ์ƒ˜ํ”Œ์˜ ์˜๋ฏธ์  ํŠน์„ฑ์— ๋Œ€ํ•ด overthinking ํ•˜๋Š” ๊ฒƒ์œผ๋กœ ์•Œ๋ ค์ ธ ์žˆ๋‹ค. ์ด๋Š” ๋ณดํ†ต ์—ฌ๋Ÿฌ ๊ฒน์˜ transformer layer์„ ๊ฑฐ์น˜๋ฉด์„œ ์ƒ์„ฑ๋˜๋Š” ์ตœ์ • ์˜๋ฏธ์  ํ‘œํ˜„์ด ๋„ˆ๋ฌด ๋ณต์žกํ•ด์ ธ, model์˜ ์ตœ์ข… ๊ฒฐ์ •์—๊นŒ์ง€ ์˜ํ–ฅ์„ ์ฃผ๋Š” ๊ฒƒ์ด๋‹ค.

 

๊ทธ๋ž˜์„œ ๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” BERT์™€ ALBERT๋ฅผ ์‚ฌ์šฉํ•ด์„œ IND์™€ OOD๋ฅผ ๊ตฌ๋ถ„ํ•˜๋Š” ๊ฒƒ์— ์žˆ์–ด์„œ๋„ overthinking ํ•˜๋Š”์ง€ ํ™•์ธํ–ˆ๋‹ค. ์ด๋Š” open-world scenario์—์„œ๋„ PTM์ด overthinking ํ•˜๋Š”์ง€ ์•Œ์•„๋ณด๊ธฐ ์œ„ํ•จ์ด๋‹ค.

 

1. ์‹คํ—˜ ๋ฐฉ๋ฒ•

1. IC (Internal Classifier)์„ ๊ฐ transformer layer์— ๋ถ€์ฐฉํ•œ๋‹ค.

2. ๋ถ€์ฐฉ๋œ IC๋“ค์„ ๋…ผ๋ฌธ์— ์ œ์‹œ๋œ 2๊ฐ€์ง€ stage๋กœ train ์‹œํ‚จ๋‹ค.

์ด IC๋“ค์˜ output์€ IND์™€ OOD๋ฅผ ๊ตฌ๋ณ„ํ•˜๋Š” ๋Šฅ๋ ฅ์ธ confidence์™€ uncertainty๋ฅผ ์ธก์ •ํ•œ๋‹ค. ์—ฌ๊ธฐ์„œ confidence๊ฐ€ ๋†’๊ณ  uncertainty๊ฐ€ ๋‚ฎ์œผ๋ฉด IND, ๋ฐ˜๋Œ€์ด๋ฉด OOD์ด๋‹ค.

 

2. ์‹คํ—˜ ๊ฒฐ๊ณผ

๋ถ‰์€ ์„ ์€ Pred Entropy๋กœ, ๋ชจ๋ธ์˜ internal layer๋“ค์˜ ์ƒ˜ํ”Œ output์˜ entropy(ํ‰๊ท ๊ฐ’)์ธ๋ฐ, ์ด๋Š” output์˜ certainty๋ฅผ ์ธก์ •ํ•˜๊ธฐ ์œ„ํ•ด ์‚ฌ์šฉ๋œ๋‹ค.

  • ๋†’์€ ์—”ํŠธ๋กœํ”ผ-  ๋ชจ๋ธ์˜ ์˜ˆ์ธก์— ๋Œ€ํ•œ ๋ถˆํ™•์‹ค์„ฑ์ด ๋†’์Œ
  • ๋‚ฎ์€ ์—”ํŠธ๋กœํ”ผ - ๋ชจ๋ธ์ด ํ•ด๋‹น ์˜ˆ์ธก์— ๋Œ€ํ•ด ๋” ํ™•์‹ ํ•˜๊ณ  ์žˆ์Œ

๊ทธ๋ž˜ํ”„์—์„œ layer๋ฅผ ์ง€๋‚ ์ˆ˜๋ก certainty๊ฐ€ ์ ์ฐจ ๊ฐ์†Œํ•˜๋Š” ๊ฒƒ์„ ๋ณผ ์ˆ˜ ์žˆ๋‹ค.

 

Diff ์ปค๋ธŒ๋Š” ๋ชจ๋“  IND ์ƒ˜ํ”Œ๊ณผ OOD ์ƒ˜ํ”Œ์˜ ์‹ ๋ขฐ๋„(ํ‰๊ท  ๊ฐ’) ๊ฐ„์˜ ์ฐจ์ด์˜ ๋ณ€ํ™” ์ถ”์„ธ๋ฅผ ๋‚˜ํƒ€๋‚ธ๋‹ค. ์—ฌ๊ธฐ์„œ ํŒŒ๋ž€์ƒ‰์€ ์‹ ๋ขฐ๋„๋ฅผ, ์ฃผํ™ฉ์ƒ‰์€ ์—”ํŠธ๋กœํ”ผ๋ฅผ ๋‚˜ํƒ€๋‚ธ๋‹ค. ์ด ์ฐจ์ด๊ฐ€ ํฌ๋ฉด ๋ชจ๋ธ์ด IND์™€ OOD ์ƒ˜ํ”Œ์„ ์ž˜ ๊ตฌ๋ถ„ํ•œ๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•˜๊ณ , ์ฐจ์ด๊ฐ€ ์ž‘์•„์ง€๋ฉด ๋ชจ๋ธ์ด ๋‘ ์ƒ˜ํ”Œ ํƒ€์ž…์„ ์ž˜ ๊ตฌ๋ถ„ํ•˜์ง€ ๋ชปํ•œ๋‹ค๋Š” ๊ฒƒ์„ ๋‚˜ํƒ€๋‚ธ๋‹ค.

layer๋ฅผ ํ†ต๊ณผํ• ์ˆ˜๋ก ์ด ์ฐจ์ด๊ฐ€ ์ ์  ์ปค์ง€๋‹ค๊ฐ€ ๋งˆ์ง€๋ง‰์—๋Š” ์กฐ๊ธˆ ๊ฐ์†Œํ•˜๋Š” ์ถ”์„ธ๋ฅผ ๋ณด์ด๋Š”๋ฐ, ์ด๋Š” ์ดˆ๋ฐ˜ ๋ช‡ layer์„ ํ†ต๊ณผํ•  ๋•Œ ์ƒ˜ํ”Œ๋“ค์„ ๊ตฌ๋ณ„ํ•˜๋Š” ๋Šฅ๋ ฅ์ด ๋›ฐ์–ด๋‚˜๋‹ค๊ฐ€, ํ›„๋ฐ˜์—๋Š” ๊ตฌ๋ณ„ ๋Šฅ๋ ฅ์ด ๋–จ์–ด์ง€๊ฒŒ ๋œ๋‹ค๋Š” ๊ฒƒ์„ ๋œปํ•œ๋‹ค.

 

3. ๊ฒฐ๊ณผ ๋ถ„์„

๋ณธ ๋…ผ๋ฌธ์—์„œ ๋ถ„์„ํ•œ ๊ฒฐ๊ณผ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค:

  1. open-world scenario์—์„œ๋„ PTM์€ IND์™€ OOD์˜ ์ฐจ์ด๋ฅผ ์œ„ํ•ด overthinking ํ•œ๋‹ค.
  2. ๋‹ค์–‘ํ•œ scenario์—์„œ overthinking ํ•˜๋Š” model์€ IND์™€ OOD๋ฅผ ๊ตฌ๋ณ„ํ•˜๊ฑฐ๋‚˜, ์ถ”๋ก  ์ค‘ IND์˜ ํŠน์ • class๋ฅผ ์‹๋ณ„ํ•˜๊ธฐ ์œ„ํ•ด ๋งˆ์ง€๋ง‰ ๊ณ„์ธต์„ ์ „๋‹ฌํ•˜๋Š” ๊ฒƒ์€ ๋ถˆํ•„์š”ํ•˜๋‹ค.

์ด์— ๋Œ€ํ•œ ํ•ด๊ฒฐ ๋ฐฉ์•ˆ์œผ๋กœ, ๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ๋‹ค์Œ ์ „๋ ฅ์„ ์ œ์‹œํ•œ๋‹ค.

1. ์ถ”๋ก  ์ „๋žต: ์ „๋‹ฌ๋œ IC์˜ ๋™์  ์•™์ƒ๋ธ”

-> IC๊ฐ€ ์ผ์ฐ ํƒˆ์ถœ (exit) ํ•˜๊ธฐ ์œ„ํ•œ ์ถฉ๋ถ„ํ•œ confidence๊ฐ€ ์žˆ์„ ๋•Œ ํˆฌํ‘œํ•ด์„œ sample์ด IND์ธ์ง€ OOD์ธ์ง€ ํŒ๋‹จํ•œ๋‹ค.

2. ์ถ”๋ก  ๋‹จ๊ณ„์—์„œ ์ •ํ™•ํ•˜๊ณ  ๋น ๋ฅธ ํ–‰์œ„์— ์ ์‘ํ•  ์ˆ˜ ์žˆ๋Š” training method ๋„์ž…

  • ํ›ˆ๋ จ ๊ณผ์ •์—์„œ IC ๊ฐ„์˜ ์ค‘๋ณต์„ฑ์„ ์ค„์ž„์œผ๋กœ์จ IC์˜ ๋‹ค์–‘์„ฑ์„ ๋†’์—ฌ IND์˜ ์ธ์‹ ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒํ•œ๋‹ค.
  • open space risk (๋ชจ๋ธ์ด ํ•™์Šตํ•˜์ง€ ์•Š์€ ๋ถ€๋ถ„์— ๋Œ€ํ•œ ์˜ˆ์ธก)์„ ํ›ˆ๋ จ ๊ณผ์ •์—์„œ ๊ฐ ํ›ˆ๋ จ ์ƒ˜ํ”Œ์˜ ๊ทผ์ ‘ํ•œ ์˜์—ญ์˜ ์ธ์ง€ ํ–‰๋™์„ ์กฐ์ •ํ•จ์œผ๋กœ์จ ์ค„์ด๊ณ , ์ด๋ฅผ ํ†ตํ•ด OOD ๊ฐ์ง€ ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒํ•œ๋‹ค.

4. ์š”์•ฝ

  1. open-world scenario์—์„œ overthinking ํ˜„์ƒ์„ ํƒ๊ตฌํ•˜๊ณ  ํ•ด๋‹น ํ˜„์ƒ์˜ IND์™€ OOD ๊ตฌ๋ถ„์—์„œ์˜ ์˜ํ–ฅ์— ๋Œ€ํ•ด ํƒ๊ตฌํ•œ๋‹ค.
  2. ๊ฐ„๋‹จํ•˜๊ณ  ํšจ์œจ์ ์ธ ์ถ”๋ก  ์ „๋žต์œผ๋กœ model ์ธ์ง€ ๋Šฅ๋ ฅ๊ณผ model ์ถ”๋ก ์˜ ์†๋„๋ฅผ ํ–ฅ์ƒํ•œ๋‹ค.
  3. ์‹คํ—˜์„ ํ†ตํ•ด ์ œ์‹œ๋œ ๋ฐฉ๋ฒ•์ด ์ •ํ™•์„ฑ์„ ๋†’์ด๊ณ  ์ถ”๋ก ์„ ํšจ์œจ์ ์œผ๋กœ ๊ฐ€์†ํ™”ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•œ๋‹ค.

Method

early exiting์„ ์œ„ํ•ด BERT์˜ ๊ฐ layer์— IC๋ฅผ ๋ถ€์ฐฉํ•œ๋‹ค.

Z_l์„ IC์— ์˜ํ•ด ์ƒ์„ฑ๋œ l๋ฒˆ์งธ layer์˜ output, Z_(1:l)์„ ์ฒซ ๋ฒˆ์งธ๋ถ€ํ„ฐ l๋ฒˆ์งธ layer๊นŒ์ง€์˜ IC์˜ joint output์œผ๋กœ ์ •์˜ํ•˜๊ณ , φ๋ฅผ ์ถ”๋ก  (์•™์ƒ๋ธ”) ์ „๋žต์œผ๋กœ ์ •์˜ํ•œ๋‹ค.

1. Training Objective

Training ICs as an Ensemble

์šฐ์„  training sample์€ IND sample ๋ฟ์ด๋ผ๋Š” ๊ฒƒ์„ ์ธ์ง€ํ•ด์•ผ ํ•œ๋‹ค. ์ด๋ ‡๊ฒŒ IND sample๋งŒ ๊ฐ€์ง€๊ณ  ์‹คํ—˜ํ•˜๋Š” ๊ฒƒ์ด OOD ๊ตฌ๋ณ„์— ์•…์˜ํ–ฅ์„ ๋ฏธ์น˜๋Š” ๊ฒƒ์ด ์•„๋‹Œ์ง€ ์šฐ๋ ค๊ฐ€ ์žˆ์ง€๋งŒ, ์˜คํžˆ๋ ค ์ด๋ ‡๊ฒŒ ๊ตฌ์„ฑ๋œ sample์€ ์˜คํžˆ๋ ค IND ๋ฐœ๊ฒฌ๊ณผ OOD ๊ฐ์ง€์— ๋„์›€์ด ๋œ๋‹ค๊ณ  ํ•œ๋‹ค.

(https://arxiv.org/abs/2110.06207)

 

์ตœ์ข… ๋ชฉํ‘œ๋Š” ์ •ํ™•์„ฑ์„ ์žƒ์ง€ ์•Š์œผ๋ฉด์„œ ์ถ”๋ก ์„ ๊ฐ€์†ํ™”ํ•˜๋Š” ๊ฒƒ์ด๊ธฐ ๋•Œ๋ฌธ์—, ์ด IND sample์ด 1๋ถ€ํ„ฐ l๋ฒˆ์งธ layer์„ ํ†ต๊ณผํ•œ ๊ฒƒ์— ๋Œ€ํ•œ ์ถ”๋ก ์ด label Y์™€ ๊ฐ™๊ฒŒ ํ•ด์•ผ ํ•œ๋‹ค. ์ฆ‰ ๋‹ค์Œ ์‹์„ ๋งŒ์กฑํ•ด์•ผ ํ•œ๋‹ค:

Y๋Š” ground truth label์ด๋‹ค.

 

์œ„ ์‹์€ ์‚ฌ์ „ ์—ฐ๊ตฌ์— ์˜ํ•ด ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์ƒํ•œ์„ ๊ฐ–๋Š”๋‹ค๊ณ  ์ฆ๋ช…๋œ ๋ฐ”๊ฐ€ ์žˆ๋‹ค.

์—ฌ๊ธฐ์„œ Ent(Y)๋Š” ๋žœ๋ค ๋ณ€์ˆ˜ Y์˜ entropy๋ฅผ, I(Z_(1:l);Y)๋Š” Z_1:l๊ณผ Y์˜ mutual information, ์ƒํ˜ธ ์ •๋ณด๋ฅผ ๋‚˜ํƒ€๋‚ธ๋‹ค.

์šฐ๋ฆฌ๋Š” ์›๋ž˜ ๋ชฉ์ ํ™•๋ฅ ์ธ p(φ(Z_(1:l) /= Y))๋ฅผ ์œ„ ์ƒํ•œ์— ์˜ํ•ด I๋ฅผ ์ตœ๋Œ€ํ™”์‹œํ‚ด์œผ๋กœ์จ ์ตœ์†Œํ™”์‹œํ‚ฌ ์ˆ˜ ์žˆ๋‹ค.

๊ทธ๋Ÿฌ๋‚˜, Z์™€ Y์˜ ์ง€์ˆ˜์  ์กฐํ•ฉ ์†์„ฑ์œผ๋กœ ์ธํ•ด, ์ด ๊ฒฐ๊ณผ๋ฅผ ๋ฐ”๋กœ ๊ณ„์‚ฐํ•  ์ˆ˜ ์—†์–ด, ์‚ฌ์ „ ์—ฐ๊ตฌ์— ์˜ํ•ด ์ œ์‹œ๋œ ํ•˜ํ•œ์„ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ๋‹ค:

๋‘ ํ•ญ์„ ์กฐ๊ธˆ ๋” ์‚ดํŽด๋ณด์ž.

L_rel์ด๋ผ๊ณ  ํ‘œ๊ธฐ๋œ ์•ž ํ•ญ์€ Z_i์™€ Y์˜ mutual information์˜ ํ•ฉ์„ ๋‚˜ํƒ€๋‚ด๊ณ , ์ด๋ฅผ relevancy๋ผ๊ณ  ์นญํ•œ๋‹ค. ์ด๋Š” ํ•ด๋‹น ๊ณ„์ธต์˜ ์ถœ๋ ฅ์ด label๊ณผ ์–ผ๋งˆ๋‚˜ ๋ฐ€์ ‘ํ•œ ๊ด€๊ณ„๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š”์ง€ ๋ณด์—ฌ์ค€๋‹ค.

L_red๋ผ๊ณ  ํ‘œ๊ธฐ๋œ ๋’ท ํ•ญ์€ classifier ๊ฐ„ ์ƒํ˜ธ ์˜์กด์„ ๋‚˜ํƒ€๋‚ด๊ณ , ์ด๋ฅผ redundancy๋ผ๊ณ  ์นญํ•œ๋‹ค. ์ฆ‰ ๋‹ค๋ฅธ ์ถœ๋ ฅ์ธต๋“ค ๊ฐ„ ์–ผ๋งˆ๋‚˜ ๋งŽ์€ ์ค‘๋ณต ์ •๋ณด๊ฐ€ ์žˆ๋Š”์ง€ ๋ณด์—ฌ์ค€๋‹ค.

 

์•ž์„  ์—ฐ๊ตฌ์— ๋”ฐ๋ฅด๋ฉด, L_rel์€ -L_ce(z_i, y)๋กœ, L_red๋Š” -min_(j<i) L_ce(z_i, z_j)๋กœ ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ๋‹ค. ์ด๋ฅผ ์ด์šฉํ•ด์„œ z๋ฅผ ๊ธฐ์ค€์œผ๋กœ Loss ํ•จ์ˆ˜๋ฅผ ์ž‘์„ฑํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค:

L_ce๋Š” standard cross entropy loss, z_i๋Š” i๋ฒˆ์งธ์— ์ž…๋ ฅ๋œ internal representation, y๋Š” ์‹ค์ œ Label์ด๋‹ค.

์•ŒํŒŒ์™€ ๋ฒ ํƒ€๋Š” ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๋‚˜ํƒ€๋‚ธ๋‹ค.

Training ICs as an Ensemble

์‚ฌ์ „์—ฐ๊ตฌ์— ๋”ฐ๋ฅด๋ฉด, open space risk๋ฅผ ์ค„์ž„์œผ๋กœ์จ OOD ๊ฐ์ง€๋ฅผ ๋†’์ผ ์ˆ˜ ์žˆ๋‹ค๋Š” ์ •๋ณด๊ฐ€ ์žˆ์—ˆ๋‹ค.

์ด์— open space risk ๊ด€๋ จ ์‹์„ ๋‚˜ํƒ€๋‚ด๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค:

O๋Š” open space, f๋Š” ๋ถ„๋ฅ˜๊ธฐ์ธ๋ฐ, x๊ฐ€ IND intent์ด๋ฉด 1 ์ด์ƒ, ์•„๋‹ˆ๋ฉด 0 ์ดํ•˜์˜ ๊ฐ’์„ ์ถœ๋ ฅํ•œ๋‹ค. ๋˜ S๋Š” O๋ฅผ ํฌํ•จํ•œ ์ „์ฒด์ ์ธ ์˜๋ฏธ์  ๊ณต๊ฐ„์ด๋‹ค.

 

training sample (IND intent)๋ฅผ ์ด์šฉํ•˜๋ฉด, open space O๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์žฌ์ •์˜๋  ์ˆ˜ ์žˆ๋‹ค.

์—ฌ๊ธฐ์„œ σ(z)๋Š” z ๊ทผ์ฒ˜์˜ ์ตœ์†Œ ์˜๋ฏธ์  ๊ณต๊ฐ„์„ ๋œปํ•œ๋‹ค.

์ด๋ฅผ ์ด์šฉํ•ด์„œ ๋‹ค์‹œ open space risk ์‹์„ ์ž‘์„ฑํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค:

S๋Š” ์ „์ฒด ๊ณต๊ฐ„์ด๋ฏ€๋กœ, ๋งˆ์ง€๋ง‰ ์‹์—์„œ์˜ ๋ถ„๋ชจ๋Š” ๋ณ€ํ•˜์ง€ ์•Š๋Š”๋‹ค.

๊ทธ๋Ÿฌ๋ฏ€๋กœ open space risk๋ฅผ ์ค„์ด๊ธฐ ์œ„ํ•ด์„œ๋Š” ๋ถ„์ž๋ฅผ ์ตœ๋Œ€ํ™”์‹œ์ผœ R_o(f)๋ฅผ ์ตœ์†Œํ™”์‹œํ‚ค๋Š” ๊ฒƒ์ด ๋ชฉํ‘œ์ด๋‹ค.

๊ทธ๋ ‡๋‹ค๋ฉด ๋ถ„์ž๊ฐ€ ๋œปํ•˜๋Š” ๊ฑด ๋ฌด์—‡์ผ๊นŒ?

 

๋ถ„์ž์—์„œ์˜ ์ ๋ถ„์„ ํ•ด์„ํ•˜๋ฉด z(IND intent์˜ ์˜๋ฏธ์  ํŠน์ง•)์˜ ๊ทผ์ฒ˜ ์ตœ์†Œ์˜ ์˜๋ฏธ์  ๊ณต๊ฐ„์„ ๊ธฐ์ค€์œผ๋กœ ํ•œ f ํ•จ์ˆ˜์˜ ์ ๋ถ„์„ ๋œปํ•œ๋‹ค.

f๋Š” IND intent์ผ ๋•Œ ๊ฐ’์ด 1 ์ด์ƒ, ์•„๋‹ ๋•Œ ๊ฐ’์ด 0 ์ดํ•˜์ธ ๋ถ„๋ฅ˜๊ธฐ์ด๋ฏ€๋กœ,

์ด ๋ถ„์ž ๊ฐ’์„ ์ตœ๋Œ€ํ™”์‹œํ‚ค๊ธฐ ์œ„ํ•ด ์ง๊ด€์ ์œผ๋กœ ์ƒ๊ฐํ•ด ๋ณด๋ฉด, z์˜ ์ฃผ๋ณ€ ์˜๋ฏธ์  ๊ณต๊ฐ„์˜ point๋“ค์ด ๊ฐ€๋Šฅํ•œ IND๋กœ ์ธ์‹๋˜๋„๋ก ๊ตฌ์„ฑํ•ด์•ผ ํ•œ๋‹ค.

 

๊ทธ๋Ÿฌ๋‚˜ ์˜๋ฏธ์  ๊ณต๊ฐ„์˜ sample point๋“ค์ด ๋งค์šฐ ๋งŽ์œผ๋ฏ€๋กœ,

๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ์ ๋Œ€์  ์˜ˆ์ œ ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉํ•ด์„œ z^~๋ฅผ ์„ ๋ณ„ํ•˜์—ฌ ์ด๋“ค์ด ๋ชจ๋‘ IND๋กœ ์ธ์‹๋˜๊ฒŒ ํ–ˆ๋‹ค.

z^~๋ž€ ์ด๋ฏธ z์˜ label๊ณผ ์ผ์น˜ํ•˜๋Š” sample์„ ๋œปํ•œ๋‹ค.

์‹์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค:

์—ฌ๊ธฐ์„œ τ^*๋Š” ํŽธ์ฐจ ๋ฒกํ„ฐ์ด๋‹ค. ๋’ค์˜ ์‹์—์„œ L์€ ๋ชจ๋ธ์˜ ์†์‹ค ํ•จ์ˆ˜, z๋Š” ์›๋ž˜์˜ ์ž…๋ ฅ feature ๋ฒกํ„ฐ๋ฅผ ๋‚˜ํƒ€๋‚ด๋ฉฐ,  z^~๋Š” z์— ๋ณ€ํ™” ๋ฒกํ„ฐ   τ๋ฅผ ์ถ”๊ฐ€ํ•˜์—ฌ ์–ป์€ ์ƒˆ๋กœ์šด feature ๋ฒกํ„ฐ์ด๋‹ค.

๋”ฐ๋ผ์„œ, ์ด ์‹์€ ๋ชจ๋“  ๊ฐ€๋Šฅํ•œ τ ๋ฒกํ„ฐ ์ค‘์—์„œ L์„ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ๋ฒกํ„ฐ๋ฅผ ์ฐพ๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•œ๋‹ค. ์ด๋ ‡๊ฒŒ ์„ ํƒ๋œ τ^* ๋Š” ์›๋ž˜์˜ ์ž…๋ ฅ z์— ๊ฐ€์žฅ ํฐ ์˜ํ–ฅ์„ ์ฃผ๋Š” ๋ณ€ํ™” ๋ฒกํ„ฐ๋กœ ๋ณผ ์ˆ˜ ์žˆ๋‹ค.

์ด๋Š” ์ ๋Œ€์  ์˜ˆ์ œ ์ƒ์„ฑ์—์„œ ์‚ฌ์šฉ๋˜๋Š” ๊ธฐ๋ณธ ์•„์ด๋””์–ด๋กœ, ์›๋ž˜์˜ ์ž…๋ ฅ์— ๊ฐ€๋Šฅํ•œ ํ•œ ์ž‘์€ ๋ณ€ํ™”๋ฅผ ์ถ”๊ฐ€ํ•˜์—ฌ ๋ชจ๋ธ์˜ ์˜ˆ์ธก์„ ํฌ๊ฒŒ ๋ฐ”๊พธ๋ ค๋Š” ๊ฒƒ์ด๋‹ค.

Final finetune Objective

์œ„์˜ ์‹์„ loss ํ•จ์ˆ˜์— ๋Œ€์ž…ํ•˜์—ฌ ๋‚˜ํƒ€๋‚ด๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค:

๊ทธ๋Ÿผ ์ตœ์ข… loss๋Š” ๋‘ loss ํ•จ์ˆ˜๋ฅผ ๋”ํ•œ ๊ฒƒ์ด ๋œ๋‹ค.

์œ„ ๊ณผ์ •์„ ํ•˜๋‚˜์˜ ๊ทธ๋ฆผ์œผ๋กœ ๋‚˜ํƒ€๋‚ด๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค:

2. Inference Stategy

์ถ”๋ก  ์ค‘, input sample x_i์— ๋Œ€ํ•ด l๋ฒˆ์งธ IC์—์„œ ์ถ”๋ก ํ•˜๋Š” label \hat {Y}_l์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค:

๊ธฐํ˜ธ (G)๋Š” scoring function์ธ๋ฐ (๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” LOF์ด ์‚ฌ์šฉ๋˜์—ˆ๋‹ค.), ์ด ๊ฐ’์ด θ_l๋ณด๋‹ค ์ž‘์œผ๋ฉด OOD, ํฌ๊ฑฐ๋‚˜ ๊ฐ™์œผ๋ฉด IND๋กœ ํŒ๋‹จํ•œ๋‹ค. H๋Š” softmax function, K๋Š” IND intent์˜ ์ด ์ˆ˜์ด๋‹ค.

์ตœ์ข… ๊ฒฐ์ •์€ ์—ฌํƒœ ์ง€๋‚˜๊ฐ„ ๋ชจ๋“  IC๋“ค์˜ ํˆฌํ‘œ๋กœ ๊ฒฐ์ •๋˜๊ณ , ๊ทธ ํŠน์ • class๊ฐ€ ์ผ์ • threshold(์ž„๊ณ„์น˜) ์ด์ƒ์ด๋ฉด ์ตœ์ข… ๊ฒฐ๊ณผ๋กœ ์—ฌ๊ธฐ๊ณ  early exit ํ•œ๋‹ค.

l๋ฒˆ์งธ layer์—์„œ ์‚ฌ์šฉ๋˜๋Š” ์ถ”๋ก  ์ „๋žต ์‹์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค:

H๋Š” IND์™€ OOD๋ฅผ ํฌํ•จํ•œ set, γ๋Š” ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ์ด๋‹ค.

φ(Yˆ1:l)์˜ ๊ฐ’์ด ํŠน์ • threshold๋ณด๋‹ค ํด ๊ฒฝ์šฐ, ์ด sample์€ ํŠน์ • l๋ฒˆ์งธ layer์—์„œ ํƒˆ์ถœํ•˜์—ฌ
IND ์ผ ๊ฒฝ์šฐ, IND label์ด ์ฃผ์–ด์ง€๊ณ , OOD์ผ ๊ฒฝ์šฐ OOD๋กœ ํŒ๋‹จ๋œ๋‹ค.

์ด๋ ‡๊ฒŒ, ์ด๊ณผ์ •์€ ๋‹ค์Œ ๊ทธ๋ฆผ๊ณผ ๊ฐ™๋‹ค:


Experiment

๋ณธ ์—ฐ๊ตฌ๋Š” ๋‹ค์Œ 3๊ฐ€์ง€ ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•ด ์‹คํ—˜ํ•œ๋‹ค:

  • CLINC-FULL
  • BANKING
  • StackOverflow

Metrics

1. ์ •ํ™•์„ฑ ๊ด€๋ จ

OOD ํด๋ž˜์Šค๋“ค์„ ํ•˜๋‚˜์˜ ์‹ฑ๊ธ€ ๊ฑฐ์ ˆ๋œ ํด๋ž˜์Šค๋กœ ์—ฌ๊ธด๋‹ค.

F1-IND์™€ F1-OOD๋Š” ๊ฐ๊ฐ IND์™€ OOD ํด๋ž˜์Šค์˜ ๊ฐ’์˜ macro F1-score์„ ๋‚˜ํƒ€๋‚ธ๋‹ค.

๋˜ํ•œ model์˜ ์ตœ์ข… effectiveness๋ฅผ ๊ณ„์‚ฐํ•˜๊ธฐ ์œ„ํ•ด accuracy score๊ณผ F1-score์„ ๊ณ„์‚ฐํ•˜๋Š”๋ฐ, ์ด๋“ค์„ ๊ฐ๊ฐ ACC-ALL๊ณผ F1-ALL์ด๋ผ๊ณ  ํ•œ๋‹ค.

2. early exit ๊ด€๋ จ

early exit์˜ ๊ตฌ์ฒด์ ์ธ ๊ณ„์‚ฐ์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค:

L์€ layer์˜ ์ˆ˜, N_l์€ l layer์—์„œ exit ํ•˜๋Š” ์ƒ˜ํ”Œ์˜ ์ˆ˜๋ฅผ ๋œปํ•œ๋‹ค.

Experimental Setting

1. ์šฐ์„  ๋ฐ์ดํ„ฐ์…‹์„ training, valid, test 3๊ฐ€์ง€์˜ ๋ฌถ์Œ์œผ๋กœ ๋ถ„๋ฅ˜ํ•œ๋‹ค.
(OOD์— ํ•ด๋‹นํ•˜๋Š” class๋Š” training set์—์„œ ์ œ์™ธ๋˜๊ณ  test set๊นŒ์ง€ ๋ณด์กด๋œ๋‹ค.)

2. ์ „์ฒด intent์˜ 25%๋ฅผ IND๋กœ ์„ ๋ณ„ํ•˜๋Š” ๋ฐ์ดํ„ฐ ๋ฌถ์Œ๊ณผ 75%๋ฅผ IND๋กœ ์„ ๋ณ„ํ•˜๋Š” ๋ฌถ์Œ์˜ 2๊ฐ€์ง€ ๋ฐ์ดํ„ฐ์…‹ ์กฐํ•ฉ์„ ๋งŒ๋“ ๋‹ค.

3. BERT (12 layers)๋ฅผ ์‚ฌ์šฉํ•˜๊ณ , ๊ฐ€์žฅ ๋„๋ฆฌ ์•Œ๋ ค์ง„ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๋กœ fine-tuning ํ•œ๋‹ค.

4. Loss ์‹์—์„œ์˜ Alpha(Alpha~)์™€ Beta(Beta~)๋ฅผ ๊ฐ๊ฐ 1.0๊ณผ 0.1๋กœ ๊ณ ์ •ํ•œ๋‹ค.

5. OOD ๊ฐ์ง€ ๋ฐฉ์‹์œผ๋กœ๋Š” LOF๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค. LOF์—๋Š” ๋‹ค๋ฅธ ๋ฐฉ์‹๋“ค๊ณผ ๋‹ฌ๋ฆฌ ๊ฑฐ๋ฆฌ๋ฅผ ๊ณ„์‚ฐํ•˜๋Š” ๊ฒƒ์— ์žˆ์–ด ์ข‹์€ ๋ฐฉ์‹์ด ์—†์œผ๋ฏ€๋กœ cosine ์œ ์‚ฌ๋„๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค. ๋˜ LOF์˜ threshold(์ž„๊ณ„์น˜)๋ฅผ validation set์„ ์ด์šฉํ•ด์„œ ์„ ์ •ํ•œ๋‹ค.

6. KNN๊ณผ ๊ฐ™์€ ๋‹ค๋ฅธ ์‹คํ—˜์„ ํ•ด์„œ ๋ณธ ๋…ผ๋ฌธ์—์„œ ์ œ์•ˆํ•œ ๋ฐฉ๋ฒ•์˜ ์ผ๋ฐ˜์„ฑ๊ณผ ํšจ์œจ์„ฑ์„ ์ž…์ฆํ•œ๋‹ค.

 

Results

์œ„ ๊ฒฐ๊ณผ๋“ค์€ BANKING๊ณผ StackOverflow, CLINC-FULL ๋ฐ์ดํ„ฐ์— ๊ด€ํ•œ ๋ณธ ๋…ผ๋ฌธ์˜ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์—ฌ ์ค€๋‹ค.

๊ฒฐ๊ณผ๋ฅผ ๋ณด๋ฉด ๋ชจ๋“  ๊ฒฐ๊ณผ์— ๋Œ€ํ•ด speed-up๋งŒ ๋˜์ง€ ์•Š์•˜์„๋ฟ๋”๋Ÿฌ, IND recognition์„ ๊ฐ•ํ™”ํ•˜๋ฉด์„œ OOD detection์„ ํšจ๊ณผ์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•œ๋‹ค: ์ด๋Š” ๋ณธ ๋…ผ๋ฌธ์˜ ๋ฐฉ๋ฒ•์ด ๋น ๋ฅด๊ณ  ํšจ๊ณผ์ ์ž„์„ ๋ณด์—ฌ ์ค€๋‹ค.

 

๋˜ ๊ฒฐ๊ณผ์— ๋Œ€ํ•ด ๋” ์ž์„ธํžˆ ๋ถ„์„ํ•ด ๋ณด๋ฉด, speed-up ์ด ๋†’์œผ๋ฉด ๋Œ€์ฒด๋กœ ์ •ํ™•์„ฑ๋„ ๋†’๊ณ , speed-up์ด ๋‚ฎ์œผ๋ฉด ๋Œ€์ฒด๋กœ ์ •ํ™•์„ฑ์ด ๋‚ฎ๋‹ค๋Š” ์‚ฌ์‹ค์„ ๋ณด์—ฌ ์ค€๋‹ค. ์ฆ‰ speed-up๊ณผ ๋ชจ๋ธ์˜ ํšจ๊ณผ๊ฐ€ ๋น„๋ก€ํ•œ๋‹ค.

์ด๋Š” ๋ชจ๋ธ์˜ ๊ฒฐ์ •์ด ๋‚˜์ค‘์— ๋งŒ๋“ค์–ด์งˆ์ˆ˜๋ก, ๋งˆ์ง€๋ง‰ level์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์ด ์ปค์ง„๋‹ค๋Š” ๊ฒƒ์„ ๋œปํ•œ๋‹ค.

์ด๋Š” dynamic decision making์˜ ํ•„์š”์„ฑ์„ ์ž…์ฆํ•˜๊ธฐ๋„ ํ•˜๋Š”๋ฐ, ๋ชจ๋ธ์€ ๋งˆ์ง€๋ง‰ layer์— ์˜์กดํ•  ํ•„์š” ์—†์ด ๋…๋ฆฝ์ ์œผ๋กœ decision์„ ๋งŒ๋“ค์–ด์•ผ ํ•œ๋‹ค.


Analysis

1. A Closer Look at Internal Layers

(a)์™€ (b)๋ฅผ ๋ณด๋ฉด, ๋ชจ๋ธ์˜ ๊ฐ layer์—์„œ์˜ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ ์ค€๋‹ค. ์—ฌ๊ธฐ์„œ overthinking ํ˜„์ƒ์„ ๋ฐœ๊ฒฌํ•  ์ˆ˜ ์žˆ๋‹ค. Internal layer๊ฐ€ best performance๋ฅผ ๋‹ฌ์„ฑํ•œ ์ˆœ๊ฐ„, ๋ชจ๋ธ์ด fluctuate ํ•˜๊ฑฐ๋‚˜ ์‹ฌ์ง€์–ด ์„ฑ๋Šฅ์ด ๋‚ฎ์•„์ง€๋Š” ํ˜„์ƒ์„ ๋ณผ ์ˆ˜ ์žˆ๋‹ค. ์ด์— early exit ๋ฉ”์ปค๋‹ˆ์ฆ˜์ด overthinking์„ ๋ง‰์•„์ฃผ๊ณ  ์ •ํ™•์„ฑ์„ ๋†’์ผ ์ˆ˜ ์žˆ๋‹ค.

(c)์™€ (d)๋ฅผ ๋ณด๋ฉด, exiting sample๋“ค์„ ๋ณด์—ฌ์ฃผ๋Š”๋ฐ, ์—ฌ๊ธฐ์„œ ๊ฑฐ์˜ ๋ชจ๋“  ์ƒ˜ํ”Œ๋“ค์ด early exit ํ•ด๋„ ๋†’์€ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ค€๋‹ค๋Š” ๊ฒƒ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค. ์ด๋Š” ์ƒ˜ํ”Œ๋“ค์ด early exiting ํ•˜๊ฒŒ ๋„์™€์ฃผ๊ณ  intent recognition์˜ ์ •ํ™•์„ฑ๋„ ๋ณด์žฅํ•˜๋Š” ๋ณธ ๋…ผ๋ฌธ์˜ ๋ฐฉ์‹์„ ์ž…์ฆํ•œ๋‹ค.

2. Importance of Training Methods

์ด ์„น์…˜์—์„œ๋Š” ๋ณธ ๋…ผ๋ฌธ์—์„œ ์ œ์‹œํ•œ training ์ „๋žต์˜ ํšจ๊ณผ๋ฅผ ํƒ๊ตฌํ•˜๊ธฐ ์œ„ํ•ด AVG., Joint, Ensemble ๋ฐฉ์‹๋“ค๊ณผ ๋น„๊ตํ•œ๋‹ค.

๊ฒฐ๊ณผ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค:

์ด๋Š” ๋ณธ ๋…ผ๋ฌธ์˜ training ๋ฐฉ๋ฒ•์ด ์ถ”๋ก ์— ๋” ์ข‹์€ ๋ฐฉ์‹์ž„์„ ๋ณด์—ฌ ์ค€๋‹ค.

3. Effect of Inference Strategy

์ด ์„น์…˜์—์„œ๋Š” ์ถ”๋ก  ์ „๋žต์— ๋Œ€ํ•œ ํšจ๊ณผ๋ฅผ ํƒ๊ตฌํ•˜๊ธฐ ์œ„ํ•ด Random, Concat., Pabee์™€ ๋น„๊ตํ•œ๋‹ค. ๊ฒฐ๊ณผ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค:

4. Compatibility with Other Detection methods?

๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” OOD Detection์„ ์œ„ํ•ด LOF ๋ฐฉ์‹์„ ์‚ฌ์šฉํ–ˆ๋‹ค.

๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ์ด ๋ฐฉ์‹์˜ ์ผ๋ฐ˜์„ฑ์„ ์ž…์ฆํ•˜๊ธฐ ์œ„ํ•ด KNN๊ณผ KNN-CL์„ ํ†ตํ•ด ๋น„๊ตํ•œ๋‹ค. ๊ฒฐ๊ณผ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค:


Conclusion

๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” PTM์ด open-world scenario์—์„œ๋„ overthinking ํ•˜๋Š”์ง€์— ๋Œ€ํ•ด ํƒ๊ตฌํ•˜๋ฉฐ ๊ทธ๊ฒƒ์ด IND์™€ OOD ๊ตฌ๋ถ„์— ์žˆ์–ด ์–ด๋–ค ์˜ํ–ฅ์„ ๋ฏธ์น˜๋Š”๊ฐ€์— ๋Œ€ํ•ด ์•Œ์•„๋ณธ๋‹ค. ๊ทธ ๊ณผ์ •์—์„œ two-birds-one-stone(์ผ์„์ด์กฐ) ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•˜๋Š”๋ฐ, ์ด๋Š” ์ถ”๋ก  ๊ณผ์ •์—์„œ ๋ชจ๋ธ์ด ๋งˆ์ง€๋ง‰ layer์„ ๊ฑฐ์น˜์ง€ ์•Š๊ณ  ์ผ์ฐ ํƒˆ์ถœํ•˜๋Š” early exiting ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ•ด ์ถ”๋ก ์˜ ์ •ํ™•์„ฑ๊ณผ ์†๋„๋ฅผ ๋ชจ๋‘ ๊ฐ–๊ฒŒ ๋˜๋Š” ๊ฒƒ์„ ๋œปํ•œ๋‹ค.

๋˜ํ•œ dynamic inference์„ ์ ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ํ›ˆ๋ จ ๋ฐฉ์‹์„ ์ ์šฉํ•œ๋‹ค.