Skip to content

Latest commit

ย 

History

History
66 lines (42 loc) ยท 4.11 KB

File metadata and controls

66 lines (42 loc) ยท 4.11 KB

์งˆ๋ฌธ์Œ(Paired Question v.2)

  • ์ง ์ง€์–ด์ง„ ๋‘ ๊ฐœ์˜ ์งˆ๋ฌธ์ด ๊ฐ™์€ ์งˆ๋ฌธ์ธ์ง€ ๋‹ค๋ฅธ ์งˆ๋ฌธ์ธ์ง€ ํ•ธ๋“œ ๋ ˆ์ด๋ธ”์„ ๋‹ฌ์•„๋‘” ๋ฐ์ดํ„ฐ
  • ์‚ฌ๋ž‘, ์ด๋ณ„, ๋˜๋Š” ์ผ์ƒ๊ณผ ๊ฐ™์€ ์ฃผ์ œ๋กœ ๋„๋ฉ”์ธ ํŠน์ •์ ์ด์ง€ ์•Š์Œ

๋ฐ์ดํ„ฐ ๊ด€๋ จ ์ด์Šˆ

๋ฐ์ดํ„ฐ ์ƒ์„ฑ ํ›„ train data์™€ test data์˜ distribution์ด ๋‹ค๋ฅธ Issues๋กœ
@aisolab๋‹˜์ด ๋‹ค์‹œ split ํ•œ ๋ฐ์ดํ„ฐ๋กœ ์—…๋ฐ์ดํŠธ

๋ฐ์ดํ„ฐ ์žฌ์ƒ์„ฑ ์ฝ”๋“œ ์ฐธ๊ณ  ๋งํฌ : https://github.com/aisolab/nlp_implementation/tree/master/BERT_pairwise_text_classification

=================================

์งˆ๋ฌธ์Œ๊ณผ ๊ด€๋ จํ•œ ๋‹จ์ƒ๋“ค

"๋‘ ์งˆ๋ฌธ์ด ๊ฐ™๋‹ค"๋ผ๋Š” ๋ง์˜ ์ •์˜

"์ง ์ง€์–ด์ง„ ๋‘ ์งˆ๋ฌธ์ด ๊ฐ™๋‹ค"๋Š” ๋ง์€ ๋ฌธ์žฅ์˜ ๊ธธ์ด, ์–ด์ˆœ ๋˜๋Š” ์‚ฌ์šฉํ•˜๋Š” ๋‹จ์–ด๊ฐ€ ๋‹ฌ๋ผ์กŒ์Œ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ๋‘ ๋ฌธ์žฅ์ด ๊ฐ™์€ ์˜๋ฏธ์ž„์„ ๋‚˜ํƒ€๋‚ธ๋‹ค. ์ฆ‰ ํ˜•ํƒœ ํ†ต์‚ฌ์  ์ฐจ์ด์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ์˜๋ฏธ๋Š” ๊ฐ™๋‹ค๊ณ  ํŒ์ •ํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

  • ๋ฌธ์žฅ์˜ ๊ธธ์ด
    ์œ ์˜์–ด, ์ถ•์•ฝ์–ด ๋“ฑ์˜ ์‚ฌ์šฉ์œผ๋กœ ์ธํ•œ ์Œ์ ˆ์˜ ์ฆ๊ฐ€ ๋˜๋Š” ์ถ•์†Œ ์™ธ์— ๋‹จ์–ด ๋ณ€๊ฒฝ์˜ ๊ฒฐ๊ณผ๋กœ ์ƒ๊ธฐ๋Š” ๋ชจ๋“  ๋ฌธ์žฅ ๊ธธ์ด์˜ ๋ณ€ํ™”๋ฅผ ํฌ๊ด„ํ•œ๋‹ค.
    (์˜ˆ) ๊ฒฐ๊ตญ ๋ถ€์ž๊ฐ€ ๋˜์—ˆ๋‹ค - ๊ฒฐ๊ตญ ๋ถ€์ž๊ฐ€ ๋๋‹ค. ๋งˆ์นจ๋‚ด ๋ถ€์ž๊ฐ€ ๋˜๊ณ ์•ผ ๋ง์•˜๋‹ค.

  • ์–ด์ˆœ
    ๊ตญ์–ด์—์„œ ๋ถ€์‚ฌ์–ด์˜ ์ด๋™์€ ์˜๋ฏธ๋ฅผ ์ฐจ์ด๋ฅผ ๊ฐ€์ ธ์˜ค์ง€ ์•Š๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ๋‹ค. ๊ทธ ์™ธ์—๋„ ๋‹ค์–‘ํ•œ ์–ด์ˆœ ์ด๋™์ด ๊ฐ€๋Šฅํ•˜๋‹ค.(์ •๋ณด ๊ตฌ์กฐ์  ์˜๋ฏธ๋Š” ๊ณ ๋ คํ•˜์ง€ ์•Š์Œ)
    (์˜ˆ) ๋งˆ์นจ๋‚ด ๋ถ€์ž๊ฐ€ ๋˜์—ˆ๋‹ค. -๋ถ€์ž๊ฐ€ ๋˜์—ˆ๋‹ค ๋งˆ์นจ๋‚ด.

  • ์•„์ฃผ ๋งŽ์€ ๊ฒฝ์šฐ์— ๋™์˜์–ด ๋˜๋Š” ์œ ์˜์–ด๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ๊ฐ™์€ ๋ฌธ์žฅ์œผ๋กœ ๋ถ„๋ฅ˜๋œ๋‹ค.
    (์˜ˆ) ๊ฒฐ๊ตญ ๊ฑฐ์ง€๊ฐ€ ๋˜์—ˆ๋‹ค - ๊ฒฐ๊ตญ ๊ฑธ์ธ์ด ๋˜์—ˆ๋‹ค. ๋งˆ์นจ๋‚ด ๋น„๋ ๋ฑ…์ด๊ฐ€ ๋˜์—ˆ๋‹ค.

  • ๋ฏธ๋ฌ˜ํ•œ ๋ฌธ์ œ

  1. ๊ณต์†๋ฒ• ๋˜๋Š” ์‹œ์ƒ, ์„œ๋ฒ•์—์„œ ์ฐจ์ด๊ฐ€ ๋‚˜๋Š” ๊ฒฝ์šฐ ์ด๋ฅผ ๋‹ค๋ฅธ ๋ฌธ์žฅ์œผ๋กœ ๋ณผ ๊ฒƒ์ธ์ง€ ๊ฐ™์€ ๋ฌธ์žฅ์œผ๋กœ ๋ณผ ๊ฒƒ์ธ์ง€๋Š” ๋…ผ์˜์˜ ๋Œ€์ƒ์ด ๋  ์ˆ˜ ์žˆ๋‹ค. ๊ทธ๋ ‡์ง€๋งŒ ๊ตญ์–ด์˜ ๊ฒฝ์šฐ ์ž์—ฐ์–ด์ฒ˜๋ฆฌ ๋‚ด์ง€ ๋ถ„์„์˜ ๊ณผ์ •์—์„œ ์ž์ฃผ ์–ด๋ฏธ๋‚˜ ์กฐ์‚ฌ๋ฅผ ์ œ์™ธํ•˜๋Š” ์–ด๊ทผํ™”(stem) ์ฒ˜๋ฆฌ๋ฅผ ํ•˜๋Š”๋ฐ ์ด ๊ฒฝ์šฐ๋Š” ๋ช…๋ฐฑํ•˜๊ฒŒ ์‹œ์ƒ์˜ ์ฐจ์ด๋กœ ์ธํ•ด ๋ฌธ์žฅ์˜ ์˜๋ฏธ ์ฐจ์ด๊ฐ€ ์ƒ๊ธฐ์ง€ ์•Š๋Š”๋‹ค. (์˜ˆ) ๋ถ€์ž๊ฐ€ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. -๋งˆ์นจ๋‚ด ๋ถ€์ž๊ฐ€ ๋˜๋‹ค.
  2. ๋„๋ฉ”์ธ์˜ ์„ฑ๊ฒฉ์ด ๋ถ„๋ช…ํ•œ ๊ฒฝ์šฐ๋Š” ๊ตญ์–ด์˜ ํŠน์„ฑ์ƒ ๋Œ€๋ถ€๋ถ„์ด ํ•˜๋‚˜์˜ ์–ด๋ฏธ๋กœ ํ†ต์ผ๋˜๋Š” ๋ฐ์ดํ„ฐ๋“ค์ด ์ƒ๊ธฐ๊ฒŒ ๋งˆ๋ จ์ด๊ณ  ์ด๋Ÿฌํ•œ ํŽธ์ด ์ž์—ฐ์Šค๋Ÿฝ๋‹ค๊ณ  ์—ฌ๊ฒจ์ง„๋‹ค. (์˜ˆ) ์‹ ๋ฌธ์ธ ๊ฒฝ์šฐ '-๋‹ค'(์†Œ์œ„ ์ ˆ๋Œ€์‹œ์ œ)๋กœ ๋๋‚˜๊ฒŒ ๋  ๊ฒƒ์ด๊ณ  ๊ตฌ์–ด๋ผ๋ฉด '-์š”' ๋“ฑ์˜ ๋ฐ˜๋ง์ฒด ์–ด๋ฏธ๋กœ ๋๋‚˜๋Š” ๋ฌธ์žฅ์ด ์••๋„์ ์œผ๋กœ ๋งŽ๋‹ค. ์••๋„์ ์ด๋ผ๊ณ  ํ•œ ์ด์œ ๋Š” ์‹ ๋ฌธ์—์„œ๋„ ์ธ์šฉ์ด๋ฉด ๋ฐ˜๋ง์ด๋‚˜ ๊ณต์† ํ‘œํ˜„์ด ๋“ฑ์žฅํ•˜๊ฒŒ ๋˜๊ณ  ๊ตฌ์–ด์—์„œ๋„ ๋งˆ์ฐฌ๊ฐ€์ง€๊ธฐ ๋–„๋ฌธ์ด๋‹ค.
  • ์–ด๋ ค์šด ๋ฌธ์ œ
    ๋ถ€์ • ํ‘œํ˜„์€ ์งˆ๋ฌธ์Œ ์œ ์‚ฌ์„ฑ์˜ ๋‚œ์ด๋„๋ฅผ ๋†’์ด๋Š” ๊ฐ€์žฅ ํฐ ์š”์ธ์œผ๋กœ ์ž‘์šฉํ•œ๋‹ค. ๋‹ค์Œ์˜ ์˜ˆ์‹œ๋Š” '์‰ฝ๋‹ค, ์„ฑ๊ณตํ•˜๋‹ค, ์ƒ๊ฐํ•˜๋‹ค +๋ถ€์ •ํ‘œํ˜„'์„ ์–ด์ˆœ ๋ฐฐ์—ด์„ ๋‹ฌ๋ฆฌํ•ด์„œ ๋ฌธ์žฅ์„ ์ƒ์„ฑํ•œ ๊ฒฝ์šฐ์ธ๋ฐ ๋ฌธ์žฅ ์˜๋ฏธ์™€ ์˜๋ฏธ ์„ผ์„œ ๋ชจ๋‘์— ํฌ๊ณ  ์ž‘์€ ์ฐจ์ด๊ฐ€ ์ƒ๊ธด๋‹ค.

(์˜ˆ) ์‰ฝ๊ฒŒ ์„ฑ๊ณตํ–ˆ๋‹ค๊ณ  ์ƒ๊ฐํ•˜์ง€ ์•Š๋Š”๋‹ค.(์–ด๋ ต๊ฒŒ ์„ฑ๊ณตํ–ˆ๋‹ค)
์„ฑ๊ณตํ•˜์ง€ ์•Š์•˜๋‹ค๊ณ  ์ƒ๊ฐํ•˜๊ธฐ ์‰ฝ๋‹ค.(์„ฑ๊ณตํ–ˆ๋‹ค)
์‰ฝ๊ฒŒ ์ƒ๊ฐํ•ด๋„ ์„ฑ๊ณตํ•œ ๊ฒƒ์€ ์•„๋‹ˆ๋‹ค(์‹คํŒจํ–ˆ๋‹ค)

์ด๋Ÿฌํ•œ ์˜ˆ์‹œ๊ฐ€ ์‹ค์ œ ๋ง๋ญ‰์น˜์— ์ž์ฃผ ๋‚˜ํƒ€๋‚˜๋Š” ๊ฒƒ์€ ์•„๋‹ˆ์ง€๋งŒ ์ •๋ฐ˜๋Œ€์˜ ์˜๋ฏธ๋ผ๋Š” ์ ์—์„œ ์ž์—ฐ์–ด์˜ ๋‚œ์ œ ์ค‘์— ํ•˜๋‚˜๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค.

  • ๊ธฐํƒ€
    ๋„์–ด์“ฐ๊ธฐ๋‚˜ ์˜คํƒ€ ๋“ฑ์œผ๋กœ ์ธํ•ด ๋‘ ๋ฌธ์žฅ์ด ๋‹ฌ๋ผ์กŒ๋‹ค๋ฉด ์ด๋Š” ์˜ค๋ฅ˜๋ฅผ ๋ฐ”๋กœ ์žก์•„์•ผ ํ•˜๋Š” ๋ฌธ์ œ์ด์ง€ ์ด ๋‘ ๋ฌธ์žฅ์˜ ์˜๋ฏธ๊ฐ€ ๋‹ค๋ฅด๋‹ค๊ณ  ํŒ๋‹จํ•  ์ˆ˜ ์—†๋‹ค.

Data description

kor_Pair_test.csv kor_pair_train.csv

train 6,888 ๊ฐœ test 688๊ฐœ

label
๊ฐ™์€ ์งˆ๋ฌธ 0
๋‹ค๋ฅธ ์งˆ๋ฌธ 1

Quick peek

๋ฐ์ดํ„ฐ ์ƒ์„ฑ์— ์ฐธ๊ณ ํ•œ ์ž๋ฃŒ https://www.kaggle.com/c/quora-insincere-questions-classification/data