- ์ง ์ง์ด์ง ๋ ๊ฐ์ ์ง๋ฌธ์ด ๊ฐ์ ์ง๋ฌธ์ธ์ง ๋ค๋ฅธ ์ง๋ฌธ์ธ์ง ํธ๋ ๋ ์ด๋ธ์ ๋ฌ์๋ ๋ฐ์ดํฐ
- ์ฌ๋, ์ด๋ณ, ๋๋ ์ผ์๊ณผ ๊ฐ์ ์ฃผ์ ๋ก ๋๋ฉ์ธ ํน์ ์ ์ด์ง ์์
๋ฐ์ดํฐ ์์ฑ ํ train data์ test data์ distribution์ด ๋ค๋ฅธ Issues๋ก
@aisolab๋์ด ๋ค์ split ํ ๋ฐ์ดํฐ๋ก ์
๋ฐ์ดํธ
๋ฐ์ดํฐ ์ฌ์์ฑ ์ฝ๋ ์ฐธ๊ณ ๋งํฌ : https://github.com/aisolab/nlp_implementation/tree/master/BERT_pairwise_text_classification
=================================
"์ง ์ง์ด์ง ๋ ์ง๋ฌธ์ด ๊ฐ๋ค"๋ ๋ง์ ๋ฌธ์ฅ์ ๊ธธ์ด, ์ด์ ๋๋ ์ฌ์ฉํ๋ ๋จ์ด๊ฐ ๋ฌ๋ผ์ก์์๋ ๋ถ๊ตฌํ๊ณ ๋ ๋ฌธ์ฅ์ด ๊ฐ์ ์๋ฏธ์์ ๋ํ๋ธ๋ค. ์ฆ ํํ ํต์ฌ์ ์ฐจ์ด์๋ ๋ถ๊ตฌํ๊ณ ์๋ฏธ๋ ๊ฐ๋ค๊ณ ํ์ ํ๋ ๊ฒ์ด๋ค.
-
๋ฌธ์ฅ์ ๊ธธ์ด
์ ์์ด, ์ถ์ฝ์ด ๋ฑ์ ์ฌ์ฉ์ผ๋ก ์ธํ ์์ ์ ์ฆ๊ฐ ๋๋ ์ถ์ ์ธ์ ๋จ์ด ๋ณ๊ฒฝ์ ๊ฒฐ๊ณผ๋ก ์๊ธฐ๋ ๋ชจ๋ ๋ฌธ์ฅ ๊ธธ์ด์ ๋ณํ๋ฅผ ํฌ๊ดํ๋ค.
(์) ๊ฒฐ๊ตญ ๋ถ์๊ฐ ๋์๋ค - ๊ฒฐ๊ตญ ๋ถ์๊ฐ ๋๋ค. ๋ง์นจ๋ด ๋ถ์๊ฐ ๋๊ณ ์ผ ๋ง์๋ค. -
์ด์
๊ตญ์ด์์ ๋ถ์ฌ์ด์ ์ด๋์ ์๋ฏธ๋ฅผ ์ฐจ์ด๋ฅผ ๊ฐ์ ธ์ค์ง ์๋ ๊ฒฝ์ฐ๊ฐ ๋ง๋ค. ๊ทธ ์ธ์๋ ๋ค์ํ ์ด์ ์ด๋์ด ๊ฐ๋ฅํ๋ค.(์ ๋ณด ๊ตฌ์กฐ์ ์๋ฏธ๋ ๊ณ ๋ คํ์ง ์์)
(์) ๋ง์นจ๋ด ๋ถ์๊ฐ ๋์๋ค. -๋ถ์๊ฐ ๋์๋ค ๋ง์นจ๋ด. -
์์ฃผ ๋ง์ ๊ฒฝ์ฐ์ ๋์์ด ๋๋ ์ ์์ด๋ฅผ ์ฌ์ฉํ๋ฉด ๊ฐ์ ๋ฌธ์ฅ์ผ๋ก ๋ถ๋ฅ๋๋ค.
(์) ๊ฒฐ๊ตญ ๊ฑฐ์ง๊ฐ ๋์๋ค - ๊ฒฐ๊ตญ ๊ฑธ์ธ์ด ๋์๋ค. ๋ง์นจ๋ด ๋น๋ ๋ฑ ์ด๊ฐ ๋์๋ค. -
๋ฏธ๋ฌํ ๋ฌธ์
- ๊ณต์๋ฒ ๋๋ ์์, ์๋ฒ์์ ์ฐจ์ด๊ฐ ๋๋ ๊ฒฝ์ฐ ์ด๋ฅผ ๋ค๋ฅธ ๋ฌธ์ฅ์ผ๋ก ๋ณผ ๊ฒ์ธ์ง ๊ฐ์ ๋ฌธ์ฅ์ผ๋ก ๋ณผ ๊ฒ์ธ์ง๋ ๋ ผ์์ ๋์์ด ๋ ์ ์๋ค. ๊ทธ๋ ์ง๋ง ๊ตญ์ด์ ๊ฒฝ์ฐ ์์ฐ์ด์ฒ๋ฆฌ ๋ด์ง ๋ถ์์ ๊ณผ์ ์์ ์์ฃผ ์ด๋ฏธ๋ ์กฐ์ฌ๋ฅผ ์ ์ธํ๋ ์ด๊ทผํ(stem) ์ฒ๋ฆฌ๋ฅผ ํ๋๋ฐ ์ด ๊ฒฝ์ฐ๋ ๋ช ๋ฐฑํ๊ฒ ์์์ ์ฐจ์ด๋ก ์ธํด ๋ฌธ์ฅ์ ์๋ฏธ ์ฐจ์ด๊ฐ ์๊ธฐ์ง ์๋๋ค. (์) ๋ถ์๊ฐ ๋์์ต๋๋ค. -๋ง์นจ๋ด ๋ถ์๊ฐ ๋๋ค.
- ๋๋ฉ์ธ์ ์ฑ๊ฒฉ์ด ๋ถ๋ช ํ ๊ฒฝ์ฐ๋ ๊ตญ์ด์ ํน์ฑ์ ๋๋ถ๋ถ์ด ํ๋์ ์ด๋ฏธ๋ก ํต์ผ๋๋ ๋ฐ์ดํฐ๋ค์ด ์๊ธฐ๊ฒ ๋ง๋ จ์ด๊ณ ์ด๋ฌํ ํธ์ด ์์ฐ์ค๋ฝ๋ค๊ณ ์ฌ๊ฒจ์ง๋ค. (์) ์ ๋ฌธ์ธ ๊ฒฝ์ฐ '-๋ค'(์์ ์ ๋์์ )๋ก ๋๋๊ฒ ๋ ๊ฒ์ด๊ณ ๊ตฌ์ด๋ผ๋ฉด '-์' ๋ฑ์ ๋ฐ๋ง์ฒด ์ด๋ฏธ๋ก ๋๋๋ ๋ฌธ์ฅ์ด ์๋์ ์ผ๋ก ๋ง๋ค. ์๋์ ์ด๋ผ๊ณ ํ ์ด์ ๋ ์ ๋ฌธ์์๋ ์ธ์ฉ์ด๋ฉด ๋ฐ๋ง์ด๋ ๊ณต์ ํํ์ด ๋ฑ์ฅํ๊ฒ ๋๊ณ ๊ตฌ์ด์์๋ ๋ง์ฐฌ๊ฐ์ง๊ธฐ ๋๋ฌธ์ด๋ค.
- ์ด๋ ค์ด ๋ฌธ์
๋ถ์ ํํ์ ์ง๋ฌธ์ ์ ์ฌ์ฑ์ ๋์ด๋๋ฅผ ๋์ด๋ ๊ฐ์ฅ ํฐ ์์ธ์ผ๋ก ์์ฉํ๋ค. ๋ค์์ ์์๋ '์ฝ๋ค, ์ฑ๊ณตํ๋ค, ์๊ฐํ๋ค +๋ถ์ ํํ'์ ์ด์ ๋ฐฐ์ด์ ๋ฌ๋ฆฌํด์ ๋ฌธ์ฅ์ ์์ฑํ ๊ฒฝ์ฐ์ธ๋ฐ ๋ฌธ์ฅ ์๋ฏธ์ ์๋ฏธ ์ผ์ ๋ชจ๋์ ํฌ๊ณ ์์ ์ฐจ์ด๊ฐ ์๊ธด๋ค.
(์) ์ฝ๊ฒ ์ฑ๊ณตํ๋ค๊ณ ์๊ฐํ์ง ์๋๋ค.(์ด๋ ต๊ฒ ์ฑ๊ณตํ๋ค)
์ฑ๊ณตํ์ง ์์๋ค๊ณ ์๊ฐํ๊ธฐ ์ฝ๋ค.(์ฑ๊ณตํ๋ค)
์ฝ๊ฒ ์๊ฐํด๋ ์ฑ๊ณตํ ๊ฒ์ ์๋๋ค(์คํจํ๋ค)
์ด๋ฌํ ์์๊ฐ ์ค์ ๋ง๋ญ์น์ ์์ฃผ ๋ํ๋๋ ๊ฒ์ ์๋์ง๋ง ์ ๋ฐ๋์ ์๋ฏธ๋ผ๋ ์ ์์ ์์ฐ์ด์ ๋์ ์ค์ ํ๋๋ผ๊ณ ํ ์ ์๋ค.
- ๊ธฐํ
๋์ด์ฐ๊ธฐ๋ ์คํ ๋ฑ์ผ๋ก ์ธํด ๋ ๋ฌธ์ฅ์ด ๋ฌ๋ผ์ก๋ค๋ฉด ์ด๋ ์ค๋ฅ๋ฅผ ๋ฐ๋ก ์ก์์ผ ํ๋ ๋ฌธ์ ์ด์ง ์ด ๋ ๋ฌธ์ฅ์ ์๋ฏธ๊ฐ ๋ค๋ฅด๋ค๊ณ ํ๋จํ ์ ์๋ค.
kor_Pair_test.csv kor_pair_train.csv
train 6,888 ๊ฐ test 688๊ฐ
label
๊ฐ์ ์ง๋ฌธ 0
๋ค๋ฅธ ์ง๋ฌธ 1
๋ฐ์ดํฐ ์์ฑ์ ์ฐธ๊ณ ํ ์๋ฃ https://www.kaggle.com/c/quora-insincere-questions-classification/data
