Skip to content

Sami9166/ELMo_Experiment

Folders and files

NameName
Last commit message
Last commit date

Latest commit

ย 

History

15 Commits
ย 
ย 
ย 
ย 
ย 
ย 
ย 
ย 
ย 
ย 
ย 
ย 
ย 
ย 
ย 
ย 
ย 
ย 
ย 
ย 
ย 
ย 

Repository files navigation

ELMo_Experiment

image

Model Performance Comparison Experiment using ELMo

๋ชฉ์ฐจ

์„œ๋ก 

ELMo(Embeddings from Language Model)๋Š” 2018๋…„์— ๋ฐœํ‘œ๋œ Deep Contextualized Word Embeddings(Matthew, 2018)์—์„œ ๊ณ ์•ˆ๋œ ์ž„๋ฒ ๋”ฉ ๊ธฐ๋ฒ•์ด๋‹ค. ๊ธฐ์กด์— ์‚ฌ์šฉ๋˜๋˜ ์›Œ๋“œ ์ž„๋ฒ ๋”ฉ๊ณผ๋Š” ๋‹ฌ๋ฆฌ, ๋ฌธ๋งฅ ์ •๋ณด๋ฅผ ๋ฐ˜์˜ํ•œ word representation์„ ์ œ๊ณตํ•œ๋‹ค. ์ด๋Š” ๋™์Œ์ด์˜์–ด๋ฟ๋งŒ ์•„๋‹Œ ๋ฌธ์žฅ์— ๋”ฐ๋ผ ๋ฏธ๋ฌ˜ํ•˜๊ฒŒ ๋‹ฌ๋ผ์ง€๋Š” ๋‹จ์–ด์˜ ๋œป๊นŒ์ง€ ๊ตฌ๋ถ„ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์—์„œ ๋‹ค๋ฅธ ์ž„๋ฒ ๋”ฉ ๊ธฐ๋ฒ•๋ณด๋‹ค ๋†’์€ ์ •ํ™•๋„๋ฅผ ๋ณด์ธ๋‹ค. ์ด๋ฆ„์—์„œ ์•Œ ์ˆ˜ ์žˆ๋“ฏ, ELMo๋Š” Language Model, ์ฆ‰ ์–ธ์–ด ๋ชจ๋ธ๋กœ๋ถ€ํ„ฐ ์ž„๋ฒ ๋”ฉ์„ ์–ป๋Š” ๋ฐฉ์‹์œผ๋กœ ์ง„ํ–‰๋œ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด ์‚ฌ์ „ํ•™์Šตํ•œ biLM์„ ์‚ฌ์šฉํ•œ๋‹ค.

  • biLM ELMo์˜ bi-LSTM์€ Forward LM๊ณผ Backward LM์œผ๋กœ ์ด๋ฃจ์–ด์ง„๋‹ค. ๋‹ค๋งŒ, ๊ธฐ์กด์˜ ์–‘๋ฐฉํ–ฅ RNN๊ณผ๋Š” ๋‹ค๋ฅธ ์ ์„ ๋ณด์ด๋Š”๋ฐ, ์–‘๋ฐฉํ–ฅ RNN์ด ์ˆœ๋ฐฉํ–ฅ RNN๊ณผ ์—ญ๋ฐฉํ–ฅ RNN์˜ hidden state๋ฅผ ์—ฐ๊ฒฐํ–ˆ๋‹ค๋ฉด ELMo์˜ bi-LSTM์€ Forward LM, Backward LM์„ ๋ณ„๊ฐœ๋กœ ํ•™์Šตํ•œ๋‹ค๋Š” ์ ์—์„œ ์ฐจ์ด๋ฅผ ๋ณด์ธ๋‹ค.

    ๊ฐ๊ฐ์˜ LM์€ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ด๋ฃจ์–ด์ ธ์žˆ๋‹ค.

    • CharCNN

      CharCNN์€ CNN์„ ํ™œ์šฉํ•œ ์ž„๋ฒ ๋”ฉ ๊ธฐ๋ฒ•์œผ๋กœ ํ•„ํ„ฐ๋ฅผ ๊ตฌ์„ฑํ•˜์—ฌ ์ฃผ๋ณ€ ๋‹จ์–ด๋ฅผ ๋ณผ ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์€ Word Embedding๊ณผ ๋น„์Šทํ•˜์ง€๋งŒ, CNN์ด๊ธฐ์— ์—ฐ์‚ฐ ์†๋„๊ฐ€ ๋น ๋ฅด๋‹ค. ๋˜ํ•œ CharCNN์€ ๋‹จ์–ด ๋Œ€์‹  ๋ฌธ์ž๋ฅผ ๊ธฐ์ค€์œผ๋กœ ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์˜ Convolution filter๋ฅผ ์ ์šฉํ•œ๋‹ค. Max Pooling์ด ์™„๋ฃŒ๋œ ํ›„์—” Highway Network๋ฅผ ๊ฑฐ์ณ ๋ถˆํ•„์š”ํ•œ ์—ฐ์‚ฐ์„ ์ค„์ธ๋‹ค. Highway Network๋Š” ๋ฐ์ดํ„ฐ๊ฐ€ ์–ด๋–ค ๋ ˆ์ด์–ด๋ฅผ ์ง€๋‚˜๊ฐˆ ๋•Œ ์ˆ˜ํ–‰๋  ์—ฐ์‚ฐ์„ ๊ฑฐ์น˜์ง€ ์•Š๊ณ  ์ง€๋‚˜๊ฐ€๋Š” ๊ฒฝ๋กœ๊ฐ€ ์žˆ๋Š” ๊ตฌ์กฐ๋กœ, ํ•™์Šต์ด ์ด๋ฏธ ๋‹ค ์ด๋ฃจ์–ด์กŒ์œผ๋ฉด ์—ฐ์‚ฐ์„ ๊ฑฐ์น˜์ง€ ์•Š๊ณ  ์ง€๋‚˜๊ฐˆ ์ˆ˜ ์žˆ์–ด ์—ฐ์‚ฐ๋Ÿ‰์„ ์ค„์ผ ์ˆ˜ ์žˆ๋‹ค.

      image

    • Bidirectional LSTM

      N๊ฐœ์˜ sequential token (t1, t2, โ€ฆ ,tn)์ด ์žˆ์„ ๋•Œ Forward LM์ด ๊ณ„์‚ฐํ•˜๋Š” ํ™•๋ฅ ์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค. ์ฆ‰, ํŠน์ • ์‹œ์ ์—์„œ์˜ ํ† ํฐ tk๊ฐ€ ๋“ฑ์žฅํ•  ํ™•๋ฅ ์€ t1๋ถ€ํ„ฐ tk-1๊นŒ์ง€์˜ ํ™•๋ฅ ์˜ ๊ณฑ๊ณผ๋„ ๊ฐ™๋‹ค๋Š” ๋œป์ด๋‹ค.

      image

      ์ž…๋ ฅ ์œ„์น˜๋ฅผ k, ํ˜„์žฌ ์ธต์˜ ๋†’์ด๋ฅผ j๋ผ ํ•  ๋•Œ, Forward LM์—์„œ ๋‚˜์˜จ context-dependent representation ์€ image ๊ณผ ๊ฐ™์ด ํ‘œํ˜„ํ•œ๋‹ค.

      biLSTM์€ LSTM ์ธต๊ณผ ์ธต ์‚ฌ์ด์— Skip connection์„ ์ ์šฉํ•œ๋‹ค. Skip connection์ด๋ž€ ์ด์ „ ์ธต์˜ ์ž…๋ ฅ ์ •๋ณด๋ฅผ ์—ฐ๊ฒฐํ•˜์—ฌ ๊ณ„์‚ฐํ•˜๋Š” ๋ฐฉ๋ฒ•์œผ๋กœ ๊ธฐ์šธ๊ธฐ ์†Œ์‹ค ๋ฌธ์ œ๋ฅผ ๋ณด์™„ํ•  ์ˆ˜ ์žˆ๋‹ค.

      image

      Backward LM์€ Forward LM๊ณผ ๋™์ผํ•˜์ง€๋งŒ ์—ญ๋ฐฉํ–ฅ์œผ๋กœ ํ† ํฐ์˜ ํ™•๋ฅ ์„ ๊ณ„์‚ฐํ•œ๋‹ค.

      image

      ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ Backward LM์—์„œ ๋‚˜์˜จ context-dependent representation์€ image ๊ณผ ๊ฐ™์ด ํ‘œํ˜„ํ•œ๋‹ค. ์ตœ์ข…์ ์œผ๋กœ biLM์˜ ํ•™์Šต์€ Forward LM๊ณผ Backward LM์„ ํ•ฉ์นœ ๊ฒƒ์˜ log likelihood๋ฅผ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ์ง„ํ–‰๋œ๋‹ค.

      image

  • ELMo

    ELMo๋Š” ์ค‘๊ฐ„ ๋ ˆ์ด์–ด์˜ representation๋“ค์„ task์— ๋งž๊ฒŒ ๊ฒฐํ•ฉํ•œ ๊ฒƒ์„ ๋งํ•œ๋‹ค. ๋ ˆ์ด์–ด ์ˆ˜๋ฅผ L์ด๋ผ ํ•  ๋•Œ, ์ž…๋ ฅ ๋ฒกํ„ฐ image ์„ ํฌํ•จํ•˜์—ฌ 2L + 1๊ฐœ์˜ representation๋“ค์„ ๊ฐ€์ค‘์น˜๋ฅผ ๊ณฑํ•œ ํ›„ ๊ฐ€์ค‘ํ•ฉํ•˜์—ฌ ๊ณ„์‚ฐํ•œ๋‹ค.

    image

    image

    image

    image์˜ ๊ฒฝ์šฐ๋Š” ๋ชจ๋“  ๋ ˆ์ด์–ด๋ฅผ representation์œผ๋กœ ์••์ถ•ํ•œ ๊ฒƒ์ด๊ณ , task์— ๋”ฐ๋ผ ํŠน์ • ๋ ˆ์ด์–ด๋งŒ ์„ ํƒํ•˜๊ฑฐ๋‚˜ ๋ณ€ํ˜•๋  ์ˆ˜ ์žˆ๋‹ค.

    image

    ํŠน์ • task์— ๋”ฐ๋ผ ๊ณ„์‚ฐ๋œ elmo representation์€ ๊ธฐ์กด ์ž„๋ฒ ๋”ฉ ๊ฐ’์— ์—ฐ๊ฒฐ(concat)๋˜์–ด ๋ฌธ๋งฅ ์ •๋ณด๋ฅผ ํ•จ๊ป˜ ๋„˜๊ฒจ์ค€๋‹ค.

์ด์ฒ˜๋Ÿผ ELMo๋Š” ์‚ฌ์ „ ํ•™์Šต๋œ ๋ชจ๋ธ์„ ํ†ตํ•ด ๋ฌธ๋งฅ ์ •๋ณด๋ฅผ ๋ฐ˜์˜ํ•˜์˜€๋‹ค๋Š” ์ ์—์„œ ๊ฐ•ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ผ ์ˆ˜ ์žˆ๋‹ค. ์ด์— ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” ๊ฐ„๋‹จํ•œ ์„ฑ๋Šฅ ๋น„๊ต ์‹คํ—˜์„ ํ†ตํ•ด ELMo๊ฐ€ ์–ด๋А ์ •๋„์˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋ณด์ด๋Š”์ง€ ํ™•์ธํ•ด๋ณด๊ธฐ๋กœ ํ•˜์˜€๋‹ค.

์‹คํ—˜ ์„ค๊ณ„

์‹คํ—˜์€ ELMo๋ฅผ ํ†ตํ•ด ์ƒ์„ฑ๋œ elmo representaton์ด ๊ธฐ์กด ์ž„๋ฒ ๋”ฉ ๊ธฐ๋ฒ•๊ณผ ๊ฒฐํ•ฉํ•˜์˜€์„ ๋•Œ์˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ์ธก์ •ํ•˜๋Š” ๊ฒƒ์ด ๋ชฉ์ ์ด๋‹ค. ๊ธฐ์กด ์ž„๋ฒ ๋”ฉ ๊ธฐ๋ฒ•๋งŒ ์‚ฌ์šฉํ–ˆ์„ ๋•Œ์˜ ํ‰๊ฐ€ ์ฒ™๋„, ์—˜๋ชจ์™€ ๊ฒฐํ•ฉํ•˜์—ฌ ์‚ฌ์šฉํ–ˆ์„ ๋•Œ์˜ ํ‰๊ฐ€ ์ฒ™๋„๋ฅผ ๋น„๊ตํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ์‹คํ—˜์„ ์ง„ํ–‰ํ•˜์˜€๋‹ค. ํ•œ ๊ฐ€์ง€ ๊ธฐ๋ฒ•๋งŒ์œผ๋กœ ์‹คํ—˜์„ ์ง„ํ–‰ํ•˜๊ฒŒ ๋œ๋‹ค๋ฉด ์ผ๋ฐ˜์ ์ธ ํ–ฅ์ƒ์˜ ๊ฒฐ๊ณผ๋ผ ๋ณด์žฅํ•  ์ˆ˜ ์—†๊ธฐ์—, ๋‹ค์Œ ๋‘ ๊ฐ€์ง€์˜ ์ž„๋ฒ ๋”ฉ ๊ธฐ๋ฒ•๋“ค์„ ๋น„๊ตํ•˜๋ฉฐ ํ™•์ธํ•ด๋ณด๊ธฐ๋กœ ํ•˜์˜€๋‹ค.

  • nn.Embedding

    nn.Embedding์€ ํ† ํฐํ™”ํ•œ ๋‹จ์–ด๋“ค์„ ์ •์ˆ˜ ์ธ์ฝ”๋”ฉํ•œ๋‹ค. ๊ทธ ํ›„, ์ •์ˆ˜ ์ธ์ฝ”๋”ฉ ๊ฒฐ๊ณผ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ lookup table์„ ์ƒ์„ฑํ•œ๋‹ค. ๋ชจ๋ธ์ด ์†์‹ค ํ•จ์ˆ˜์— ๋”ฐ๋ผ ํ•™์Šตํ•˜๋Š” ๊ณผ์ •์—์„œ lookup table์˜ ๊ฐ€์ค‘์น˜๋“ค๋„ ๊ฐ™์ด ํ•™์Šต๋œ๋‹ค.

  • GloVe

    GloVe๋Š” ๊ธฐ์กด ์นด์šดํŠธ ๊ธฐ๋ฐ˜์˜ ๋ฐฉ๋ฒ•๋ก ๊ณผ ์˜ˆ์ธก ๊ธฐ๋ฐ˜์˜ ๋ฐฉ๋ฒ•๋ก ์„ ์ ˆ์ถฉํ•œ ๊ธฐ๋ฒ•์ด๋‹ค. ๊ธ€๋กœ๋ธŒ์—์„  ์ž„๋ฒ ๋”ฉ ๋œ ์ค‘์‹ฌ ๋‹จ์–ด์™€ ์ฃผ๋ณ€ ๋‹จ์–ด ๋ฒกํ„ฐ์˜ ๋‚ด์  ๊ฐ’์ด ์ „์ฒด ์ฝ”ํผ์Šค์—์„œ์˜ ๋™์‹œ ๋“ฑ์žฅ ํ™•๋ฅ ๋กœ ์ด์–ด์ ธ ์นด์šดํŠธ ๊ธฐ๋ฐ˜ ์ž„๋ฒ ๋”ฉ๊ณผ ๊ธฐ์กด ์›Œ๋“œ ์ž„๋ฒ ๋”ฉ์˜ ์˜ˆ์ธก ๊ธฐ๋ฐ˜ ์ž„๋ฒ ๋”ฉ์˜ ํŠน์ง• ๋ชจ๋‘๋ฅผ ๊ฐ–๋Š”๋‹ค.

์„ฑ๋Šฅ ํ–ฅ์ƒ ์ธก์ •์„ ์œ„ํ•ด ELMo๊ฐ€ ํ•ด๋‹น ์ž„๋ฒ ๋”ฉ๋“ค๊ณผ ๊ฒฐํ•ฉํ•˜์˜€์„ ๋•Œ ๊ฒฐ๊ณผ๋ฅผ ELMo๋ฅผ ์‚ฌ์šฉํ•˜์ง€ ์•Š์•˜์„ ๋•Œ ๊ฒฐ๊ณผ์™€ ๋น„๊ตํ•˜๊ณ ์ž ํ•œ๋‹ค. ์‹คํ—˜์—์„œ ๋‹ค๋ฃฐ ๊ฒฝ์šฐ๋Š” ์•„๋ž˜์™€ ๊ฐ™์ด ์ด 4๊ฐ€์ง€์ด๋‹ค.

  • nn.Embedding
  • GloVe
  • nn.Embedding + ELMo
  • GloVe + ELMo

๋˜ํ•œ ELMo๋ฅผ ํ†ตํ•œ ๊ฐ ์ž„๋ฒ ๋”ฉ ๊ธฐ๋ฒ•๋“ค์˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ๋งŒ ์ธก์ •ํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹Œ, nn.Embedding + ELMo, GloVe + ELMo๋ฅผ ๋น„๊ตํ•˜๋ฉด์„œ ์ž„๋ฒ ๋”ฉ ๊ธฐ๋ฒ• ๋ณ„๋กœ ELMo ์„ฑ๋Šฅ์— ์˜ํ–ฅ์ด ์žˆ๋Š”์ง€ ํ™•์ธํ•ด๋ณด๊ธฐ๋กœ ํ•˜์˜€๋‹ค.

์‹คํ—˜์„ ์œ„ํ•œ task๋Š” ๋‹ค์ค‘ ํ…์ŠคํŠธ ๋ถ„๋ฅ˜๋กœ ์„ ์ •ํ•˜์˜€๋‹ค. ํ…์ŠคํŠธ๋ฅผ ์—ฌ๋Ÿฌ ๋ถ„๋ฅ˜๋กœ ๊ตฌ๋ถ„ํ•˜๊ธฐ ์œ„ํ•ด์„  ํ…์ŠคํŠธ ๋‚ด ์‚ฌ์šฉ๋œ ๋‹จ์–ด์˜ ๋ฌธ๋งฅ์  ์˜๋ฏธ๊ฐ€ ์ค‘์š”ํ•˜๊ฒŒ ์ ์šฉํ•  ๊ฒƒ์ด๋‹ค. ๋ฐ์ดํ„ฐ๋Š” AG News Classification Dataset์„ ์‚ฌ์šฉํ–ˆ์œผ๋ฉฐ, Description ์—ด์€ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ๊ฐ€ ์ผ๊ด„์ ์œผ๋กœ ๋˜์ง€ ์•Š์•„ Title ์—ด์„ ์‚ฌ์šฉํ•˜์˜€๋‹ค. ์ •๋ฆฌํ•˜์ž๋ฉด, ์ž…๋ ฅ๋ฐ›์€ Title ๋ฐ์ดํ„ฐ๋ฅผ World, Sports, Business, Sci/Tech ์ค‘ ํ•˜๋‚˜์˜ ์ฃผ์ œ๋กœ ๊ตฌ๋ถ„ํ•˜๋Š” ๊ฒƒ์ด ์‹คํ—˜์˜ task์ด๋‹ค.

ํ•™์Šต

  • ํ•™์Šต ๋ฐ์ดํ„ฐ์…‹

    ๋ฐ์ดํ„ฐ์…‹์€ ์•ฝ 120,000๊ฐœ์˜ ๋‰ด์Šค ๋ถ„๋ฅ˜ ๋ฐ์ดํ„ฐ๊ฐ€ ์žˆ๋Š” AG News Classification์„ ์‚ฌ์šฉํ•˜์˜€๋‹ค. ๊ทธ์ค‘์—์„œ๋„ Title ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•˜์—ฌ ํ•™์Šต์„ ์ง„ํ–‰ํ•˜์˜€๊ณ , ๊ฐ๊ฐ ๋ชจ๋ธ์— ๋งž๋Š” Encoder ํด๋ž˜์Šค์— ๋”ฐ๋ผ ์ธ์ฝ”๋”ฉ๋˜์—ˆ๋‹ค.

  • ๋ชจ๋ธ ์„ค๊ณ„

    ๋ชจ๋ธ์€ ์‹คํ—˜์—์„œ ๋‹ค๋ฃจ๋Š” ๊ฒฝ์šฐ๋“ค ๋ชจ๋‘ LSTM layer๋Š” ๊ณตํ†ต๋˜๊ธฐ ๋•Œ๋ฌธ์— Embedding Layer, LSTM Layer๋ฅผ ๋‚˜๋ˆ„์–ด ๊ฐ๊ฐ ๊ตฌํ˜„ํ•˜์˜€๋‹ค. Embedding Layer์—๋Š” elmo_mode๋ผ๋Š” boolean argument๋ฅผ ์ถ”๊ฐ€ํ•˜์—ฌ ๊ทธ ๊ฐ’์— ๋”ฐ๋ผ ELMo์™€ ๊ธฐ์กด์˜ ์ž„๋ฒ ๋”ฉ์ด ๊ฒฐํ•ฉ๋œ๋‹ค. ๋”๋ถˆ์–ด Embedding Layer์™€ LSTM layer๋ฅผ ์—ฐ๊ฒฐํ•˜๋Š” Classifier ํด๋ž˜์Šค๋ฅผ ๋งŒ๋“ค์–ด ์ž„๋ฒ ๋”ฉ ๊ฒฐ๊ณผ๊ฐ€ LSTM layer๋กœ ์ด์–ด์ง€๊ณ , ์นดํ…Œ๊ณ ๋ฆฌ๋ฅผ ๋ถ„๋ฅ˜ํ•œ๋‹ค.

  • ํ•™์Šต ์„ค๊ณ„

    ํ•™์Šต์€ Trainer ํด๋ž˜์Šค๋ฅผ ํ†ตํ•ด ๋ฐ์ดํ„ฐ์…‹, ๋ชจ๋ธ, ์˜ตํ‹ฐ๋งˆ์ด์ €, ์†์‹ค ํ•จ์ˆ˜, learning rate ๋“ฑ์„ ์ž…๋ ฅ๋ฐ›์•„ ์ด๋ฃจ์–ด์ง„๋‹ค. ์†์‹ค ํ•จ์ˆ˜๋กœ๋Š” ๋‹ค์ค‘ ๋ถ„๋ฅ˜์— ์ ํ•ฉํ•œ Cross Entropy ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜์˜€๊ณ , ์˜ตํ‹ฐ๋งˆ์ด์ €์—๋Š” Adam์„ ์‚ฌ์šฉํ•˜์˜€๋‹ค. ๋˜ํ•œ, ReduceLROnPlateau๋ฅผ scheduler๋กœ ์„ค์ •ํ•˜์—ฌ ์„ฑ๋Šฅ ํ–ฅ์ƒ์ด ์—†์„ ๋•Œ learning rate๋ฅผ ๊ฐ์†Œํ•˜๊ฒŒ ํ–ˆ๋‹ค.

์‹คํ—˜์— ์‚ฌ์šฉํ•œ hyperparameter๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

Hyperparam Value
batch_size 16
epoch 10
embedding_dim 300
hidden_dim 512
output_dim 4
learning_rate 0.01
num_layers 2

์‹คํ—˜ ๊ฒฐ๊ณผ

image

์ „์ฒด์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ์‚ดํŽด๋ณด์ž๋ฉด, Base ๋ชจ๋ธ์„ ์‚ฌ์šฉํ–ˆ์„ ๋•Œ๋ณด๋‹ค ELMo์™€ ํ•จ๊ป˜ ๊ฒฐํ•ฉํ–ˆ์„ ๋•Œ๊ฐ€ Accuracy, F1-Score ๋‘ ํ‰๊ฐ€์ง€ํ‘œ ๋ชจ๋‘์—์„œ ๋†’์€ ์„ฑ๋Šฅ์„ ๋ณด์˜€๋‹ค. ๋‹ค๋งŒ nn.Embedding์˜ ๊ฒฝ์šฐ Accuracy๊ฐ€ 0.73%p ์ฆ๊ฐ€ํ•˜์˜€๊ณ , GloVe์˜ ๊ฒฝ์šฐ 1.1%p ์ฆ๊ฐ€ํ•œ ๊ฒƒ์œผ๋กœ ๋ณด์•„ ํฐ ์„ฑ๋Šฅ ๋ณ€ํ™”๋Š” ์—†๋Š” ๊ฒƒ์œผ๋กœ ๋ณด์ธ๋‹ค. F1-Score์—์„œ๋„ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ์ฆ๊ฐ€ ํญ์ด ํฌ์ง€ ์•Š์€ ๊ฒƒ์œผ๋กœ ๋ณด์•„ ELMo ๊ฒฐํ•ฉ์— ๋”ฐ๋ฅธ ์„ฑ๋Šฅ ํ–ฅ์ƒ์€ ์กด์žฌํ•˜๋‚˜, ๋‘˜ ๋‹ค ์˜๋ฏธ์žˆ๋Š” ์ •๋„์˜ ํ–ฅ์ƒ์€ ์•„๋‹ˆ๋ผ ๋ณผ ์ˆ˜ ์žˆ๋‹ค. nn.Embedding, GloVe๋ฅผ ๋น„๊ตํ•œ ๊ฒฐ๊ณผ, GloVe์™€ ๊ฒฐํ•ฉํ–ˆ์„ ๋•Œ๊ฐ€ ์„ฑ๋Šฅ ํ–ฅ์ƒ์ด ๋” ๋†’๊ฒŒ ๋‚˜์™”๋Š”๋ฐ ์ด๋Š” nn.Embedding์ด ์†์‹คํ•จ์ˆ˜์— ๋”ฐ๋ผ ๊ฐ€์ค‘์น˜๋ฅผ ์—…๋ฐ์ดํŠธํ•˜๋Š” ๊ณผ์ •์—์„œ ๋ฌธ๋งฅ์ด ๊ณ ๋ ค๋˜์—ˆ๊ธฐ์— ELMo๋กœ ์ธํ•œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์ด ํฌ๊ฒŒ ์ผ์–ด๋‚˜์ง€ ์•Š์€ ๊ฑธ๋กœ ์ƒ๊ฐํ•œ๋‹ค.

๊ฒฐ๊ณผ๋ฅผ ๋ณด๋ฉด nn.Embedding์ด GloVe๋ณด๋‹ค ์ „๋ฐ˜์ ์ธ ์„ฑ๋Šฅ์ด ์ข‹๊ฒŒ ๋‚˜์™”๋Š”๋ฐ, ์ด๋Š” ์‹คํ—˜์— ์‚ฌ์šฉํ•œ ๋‰ด์Šค ๋ฐ์ดํ„ฐ์˜ ํŠน์„ฑ ๋•Œ๋ฌธ์ธ ๊ฒƒ์œผ๋กœ ๋ณด์ธ๋‹ค. ๋‰ด์Šค ๋ฐ์ดํ„ฐ์—๋Š” ๊ณ ์œ ๋ช…์‚ฌ, ๋‚ด์ง€๋Š” ํŠน์ˆ˜ํ•œ ๋‹จ์–ด๋“ค์ด ์ฃผ๋กœ ์‚ฌ์šฉ๋˜๋Š”๋ฐ, ํ•ด๋‹น ๋‹จ์–ด๋“ค์„ ์ •์ˆ˜ ์ธ์ฝ”๋”ฉํ•˜์—ฌ ๋‹จ์–ด ์‚ฌ์ „์— ์ถ”๊ฐ€ํ•˜๋Š” nn.Embedding๊ณผ ๋‹ฌ๋ฆฌ, GloVe์˜ ๊ฒฝ์šฐ ์‚ฌ์ „์— ๋งŒ๋“ค์–ด์ง„ ๋‹จ์–ด ์‚ฌ์ „์„ ์‚ฌ์šฉํ•œ๋‹ค. ์ด๋กœ ์ธํ•ด GloVe๋Š” ํ•ด๋‹น ๋‹จ์–ด๋“ค์„ ํ† ํฐ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜์—ฌ ์˜ˆ์ธก ์ •ํ™•๋„์— ์ฐจ์งˆ์ด ์ƒ๊ธฐ๋Š” ๊ฒƒ์ด๋‹ค. ์‹ค์ œ๋กœ GloVe๋ฅผ ์‚ฌ์šฉํ•œ ์ž„๋ฒ ๋”ฉ ๋ ˆ์ด์–ด ํ•™์Šต ์‹œ freeze๋ฅผ False๋กœ ํ•˜์—ฌ ๊ฐ€์ค‘์น˜ ์—…๋ฐ์ดํŠธ๋ฅผ ์ง„ํ–‰ํ–ˆ์„ ๋•Œ, Accuracy 86.47%, F1-Score 0.86์œผ๋กœ nn.Embedding ๋ชจ๋ธ๊ณผ ์œ ์‚ฌํ•˜๊ฒŒ ๋‚˜์˜จ ๊ฒƒ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋‹ค.

๊ฒฐ๋ก 

์‹คํ—˜ ๊ฒฐ๊ณผ๋Š” ๊ธฐ์กด์˜ ๋…ผ๋ฌธ๊ณผ๋Š” ๋‹ค๋ฅด๊ฒŒ ํฐ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋ณด์ด๊ณ  ์žˆ์ง€๋Š” ์•Š๋‹ค. ์ด๋Š” ์‹คํ—˜ ์ž์ฒด์˜ ํ•œ๊ณ„์—์„œ ๊ธฐ์ธํ•œ ๊ฒƒ์œผ๋กœ ๋ณด์ด๋Š”๋ฐ, ์ด๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

  • ์‚ฌ์ „ ํ•™์Šต ๋ชจ๋ธ์˜ ํ•œ๊ณ„

    ELMo ์—ญ์‹œ ์‚ฌ์ „์— ํ•™์Šต๋œ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์œผ๋กœ, GloVe์™€ ๊ฐ™์ด ๊ณ ์œ ๋ช…์‚ฌ, ํŠน์ˆ˜ํ•œ ๋‹จ์–ด๋ฅผ ์ฒ˜๋ฆฌํ•˜๊ธฐ์— ์ ํ•ฉํ•˜์ง€ ์•Š์„ ์ˆ˜๋„ ์žˆ๋‹ค. ํ•™์Šต์„ ์ง„ํ–‰ํ•˜๊ธฐ ์ „, ELMo์— Title ๋ฌธ์žฅ๋“ค์„ ํ•™์Šตํ•œ๋‹ค๋ฉด ๋” ๋†’์€ ์„ฑ๋Šฅ ํ–ฅ์ƒ์ด ์ด๋ฃจ์–ด์ ธ ์žˆ์„ ์ง€๋„ ๋ชจ๋ฅธ๋‹ค.

  • ๋ถ€์กฑํ•œ ๋ฐ์ดํ„ฐ์…‹

    ELMo๋Š” ๋ฌธ์žฅ์ด ์ž…๋ ฅ๋˜์—ˆ์„ ๋•Œ, ๋ฌธ๋งฅ์  ์˜๋ฏธ๋ฅผ ํŒŒ์•…ํ•  ์ˆ˜ ์žˆ๋„๋ก ๋„์™€์ฃผ๋Š” ๋ชจ๋ธ์ด๋‹ค. ๊ทธ๋Ÿฐ ์ ์—์„œ ๋‰ด์Šค ๋ฐ์ดํ„ฐ ์ค‘ Title ๋ฐ์ดํ„ฐ๋ฅผ ์„ ํƒํ•œ ๊ฒƒ์€ ELMo์˜ ์„ฑ๋Šฅ์„ ์ตœ๋Œ€ํ•œ์œผ๋กœ ๋ฐœํœ˜ํ•˜๊ธฐ ํž˜๋“  ์„ ํƒ์ด์—ˆ์„ ์ˆ˜ ์žˆ๋‹ค. Title ๋ฐ์ดํ„ฐ์˜ ๊ฒฝ์šฐ ์™„์ „ํ•œ ๋ฌธ์žฅ์œผ๋กœ ์ด๋ฃจ์–ด์ง€์ง€ ์•Š์•˜๊ณ , ์ค‘๊ฐ„์ค‘๊ฐ„ ์ „์ฒ˜๋ฆฌ๋˜์ง€ ๋ชปํ•œ ๋ฐ์ดํ„ฐ๋“ค๋„ ์žˆ์„ ์ˆ˜ ์žˆ๊ธฐ์— ์ข‹์€ ์„ฑ๋Šฅ์„ ๋‚ด๊ธฐ์— ์ ํ•ฉํ•˜์ง€ ์•Š์•˜์„ ์ˆ˜ ์žˆ๋‹ค.

  • ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ, ๋ชจ๋ธ ์„ค๊ณ„์˜ ๋ฌธ์ œ

    ์ •ํ™•ํ•œ ๋น„๊ต๋ฅผ ์œ„ํ•ด ๋„ค ๊ฐ€์ง€ ๊ฒฝ์šฐ์˜ ๋ชจ๋ธ๋“ค์˜ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๋ชจ๋‘ ๋™์ผํ•œ ์กฐ๊ฑด์—์„œ ์ง„ํ–‰ํ•˜์˜€๋‹ค. embedding dimension์˜ ๊ฒฝ์šฐ GloVe ๋ชจ๋ธ ๋กœ๋“œ๋ฅผ ์œ„ํ•ด GloVe ๋ชจ๋ธ์— ๋”ฐ๋ฅธ ์ฐจ์› ๊ฐ’์œผ๋กœ ์„ค์ •์ด ๋˜์–ด์žˆ๊ธฐ ๋•Œ๋ฌธ์— ๋‹ค๋ฅธ ๋ชจ๋ธ๋“ค์—๊ฒŒ๋Š” ์ตœ์ ํ™”๋œ ๊ฒฐ๊ณผ๊ฐ€ ์•„๋‹์ง€๋„ ๋ชจ๋ฅธ๋‹ค. ๋˜ํ•œ, Hidden layer์˜ ์„ค๊ณ„, ๊ธฐ์กด Embedding layer์™€ elmo representaion์˜ ๊ฒฐํ•ฉ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๋“ฑ์„ ๋ฐ”๊พธ๋Š” ๊ฒƒ์„ ํ†ตํ•ด ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋„๋ชจํ•ด๋ณผ ์ˆ˜๋„ ์žˆ๊ฒ ๋‹ค.

๋น„๋ก, ํ•ด๋‹น ์‹คํ—˜์—์„œ๋Š” ๋†’์€ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋ณด์ด์ง„ ๋ชปํ–ˆ์ง€๋งŒ, ELMo๋Š” ์‚ฌ์ „ ํ•™์Šต๋œ ๋ชจ๋ธ๋กœ ๋ฌธ๋งฅ ์ •๋ณด๋ฅผ ํŒŒ์•…ํ•œ๋‹ค๋Š” ํŒจ๋Ÿฌ๋‹ค์ž„์„ ์ œ์‹œํ–ˆ๋‹ค๋Š” ์ ์—์„œ ํ›„๋Œ€์— ๋“ฑ์žฅํ•  Seq2Seq, Transformer์— ์ง€๋Œ€ํ•œ ์˜ํ–ฅ์„ ๋ผ์ณค๋‹ค.

About

ELMo Performance Experiment using Pytorch

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages