A.X 4.0 VL Light: 한국 특화 비전 언어 모델

SK텔레콤이 한국 이미지를 정밀하게 이해할 수 있는 비전 언어 모델(Vision Language Model) A.X 4.0 VL Light를 2025년 7월 28일 출시하였습니다. A.X 4.0 VL Light는 A.X 4.0 Light의 우수한 한국어 이해 및 추론 능력을 기반으로, 방대한 양의 한국 이미지 데이터를 추가로 학습하여 한국어 기반 이미지 이해 및 문서 분석 능력을 실제 업무 환경에 맞게 대폭 강화했습니다. 특히 한국어 텍스트와 이미지가 혼합된 복합적인 문서 구조 이해, 표/그래프와 같은 구조화된 데이터 처리 및 요약 등 실사용 시나리오에서 높은 정확도와 이해력을 제공합니다.

A.X 4.0 VL Light, 무엇이 다른가요?

경량 모델: 70억 개(7B) 매개변수를 가진 경량 언어 모델 A.X 4.0 Light와 4억 개(400M) 매개변수를 가진 비전 모델 SigLIP2를 결합해, 단일 GPU에서도 한국어 비전 태스크를 안정적으로 수행하도록 설계되었습니다.
뛰어난 한국 비전 및 언어 이해도: 한국어 이미지 벤치마크에서 평균 79.4점을 기록하여, 훨씬 큰 규모의 모델인 Qwen2.5-VL-32B(73.4점)보다 더 높은 성능을 보였습니다. 또한, 한국어 텍스트 벤치마크에서는 14B 규모의 국내 비전 언어 모델과 유사한 성능을 달성하면서도 절반 수준의 모델 규모만으로 경쟁력을 입증했습니다.
높은 한국 문화 이해도: 한국어 문화·맥락 이해를 평가하는 멀티모달 벤치마크 K-Viscuit에서 80.2점을 기록하며, Qwen2.5-VL-32B(72.3점) 대비 높은 한국 문화 적합성을 보였습니다.
고도화된 문서 이해 능력: 차트 및 표를 포함한 복잡한 문서 구조 이해를 평가하는 KoBizDoc 벤치마크에서 89.8점을 달성하여, Qwen2.5-VL-32B(88.8점)와 동급 수준의 문서 처리 능력을 보여주었습니다.
효율적인 토큰 처리: 동일한 한국어 입력에 대해 A.X 4.0 VL Light는 Qwen2.5-VL 대비 약 41% 적은 토큰을 사용하여 훨씬 더 비용 효율적이고 처리 효율이 높은 운영이 가능합니다.

핵심 기술은?

효과적인 학습 방법

A.X 4.0 VL Light 학습은 다음 4단계로 진행되었습니다.

비전 인코더 정합(Vision Language Alignment): 사전 학습된 비전 인코더의 표현을 A.X 4.0 언어 모델이 이해할 수 있도록 정합합니다.
비전 인코더 사전학습(Vision Encoder Continual Pretraining): 실사용 환경을 반영한 대규모 한국어 이미지 및 문서 데이터로 추가 사전학습을 수행해 한국어 기반 시각 이해 능력을 강화했습니다.
비전-언어 지시 이행 학습(Vision-Language Instruction Tuning): 다양한 이미지 관련 작업에서 사용자 맞춤형의 구조화된 응답을 생성할 수 있도록 비전 인코더와 언어 모델을 공동 학습해 지시 이행 성능을 높였습니다.
비전-언어 사후 학습(Vision-Language Post-Training): 일반 지식 대화부터 추론, 수리, 코딩 등 전문 지식 뿐만 아니라 기업 특화 데이터도 학습해 언어 모델의 강점을 유지하면서, 다양한 시각 추론 데이터를 학습하여 비전 문제 해결 능력을 전방위로 향상시켰습니다.

위 전략은 검증된 언어 모델의 폭넓은 기능을 유지하면서도, 한정된 자원으로 한국 이미지 처리 능력을 빠르게 고도화할 수 있다는 장점이 있습니다.

A.X 4.0의 장점 계승

A.X 4.0 VL Light는 A.X 4.0을 기반 모델로 사용하며, 기존 모델이 가진 우수한 한국어 처리 성능과 기업 환경에 최적화된 활용성을 계승하도록 설계되었습니다. 실제 사용 환경에서는 다음과 같은 특징과 장점을 가집니다:

우수한 한국어 이해 및 생성 능력: 대화, 요약, 추론, 지시 이행 등 다양한 언어 과제에서 고성능 언어 모델 수준의 자연스러운 응답과 정확한 생성 능력을 보여줍니다.
뛰어난 한국 지식 및 문화 이해도: 대규모 고품질의 한국어 데이터셋을 학습하여, 한국 사회, 역사, 문화 전반에 대한 이해도가 높아 공공·교육·문화 분야에도 효과적으로 활용할 수 있습니다.
효율적인 토큰 처리: 한국어에 최적화된 토크나이저를 사용하여, 동일한 입력에서도 타 모델 대비 더 적은 토큰으로 표현이 가능하며, 긴 문서를 다루는 문서 요약, 검색 증강 생성(RAG) 등 업무 시나리오에서 운영 비용 절감 효과를 제공합니다.

고품질 데이터 구축 파이프라인

고품질 데이터 구축 파이프라인은 국내 환경에 특화된 모델 개발에 필요한 데이터의 절대량과 품질을 확보하는 핵심 기술입니다. SK텔레콤은 자체적으로 대규모 한국어 멀티모달 데이터 구축 파이프라인을 설계하고 운영해왔으며, 이를 통해 한국 이미지와 문서 기반의 데이터를 직접 수집·정제·가공하여 학습에 활용하고 있습니다. 이러한 체계적인 데이터 구축 노력의 결과로, A.X 4.0 VL Light는 한국어 기반 비전-언어 태스크 전반에서 동급 대비 최고 수준의 성능을 달성했습니다.

주요 데이터 구축 영역은 다음과 같습니다.

한국 이미지에 기반한 설명 및 시각 기반 대화 데이터
한국 문서, 표, 차트를 활용한 지시 이행 학습용 데이터
한국어 문서의 구조 분석 및 변환(파싱) 데이터
단계적 논리 추론 및 수리 문제 해결을 위한 고난도 텍스트-시각 혼합 데이터

벤치마크 측정 결과

A.X 4.0 VL Light는 KoEduBench (58.1), K-Viscuit (80.2), K-DTCBench (89.6) 등 한국 지식/문화/문서 벤치마크에서 동급은 물론 상위 파라미터 모델까지 앞서는 탁월한 성능을 보입니다.
한국어 지식 평가 지표인 KMMLU (59.4), 지시 이행 평가 지표인 Ko-IFEval (71.8)에서 타 모델 대비 우세하여 균형 잡힌 한국어 처리 능력을 갖췄습니다.

이미지 벤치마크

* 표시는 한국어 벤치마크임을 의미하며, K-Viscuit은 한국어 번역본으로 평가했습니다.

Category	Benchmarks
Category	Benchmarks	A.X 4.0 VL Light	Qwen2.5-VL-7B	InternVL3-8B	VARCO-VISION-2.0-14B	Qwen2.5-VL-32B
Document	KoBizDoc*	89.8	84.0	73.2	83.0	88.8
	K-DTCBench*	90.0	86.7	83.8	80.8	91.7
	ChartQA	79.8	80.6	79.8	78.8	81.8
	DocVQA	94.4	95.3	92.4	91.9	94.5
	InfoVQA	78.5	82.7	76.2	80.0	82.7
	SEEDBench2-Plus	69.7	71.2	69.7	71.9	73.3
OCR	OutdoorKorean*	97.3	91.9	72.7	79.7	86.9
	K-Handwriting*	84.3	85.0	43.5	55.2	60.1
	TextVQA	82.0	85.4	82.1	80.3	79.8
Culture	K-Viscuit*	80.2	65.0	65.3	72.0	72.3
Knowledge	KoEduBench*	58.1	53.9	53.9	39.4	52.4
	KoCertBench*	54.9	50.1	39.4	51.4	47.5
	MMMU	54.1	56.3	59.4	58.3	63.6
	ScienceQA	95.3	87.2	97.8	92.2	92.4
General	K-LLAVA-W*	83.2	73.0	67.0	80.0	84.3
	K-SEED*	76.5	76.4	76.4	76.9	77.3
	SEEDBench_IMG	76.7	77.1	77.1	78.1	77.6
Hallucination	HallusionBench	54.2	52.7	49.6	53.8	58.0
IF	MM-IFEval	53.5	51.4	51.9	50.8	59.3

다음은 한국 이미지 및 한국 특화 지식 영역에서 모델 성능을 엄밀하게 평가하기 위해 SK텔레콤에서 구축한 벤치마크 목록입니다.

KoBizDoc: 한국어 비즈니스 문서를 이해하기 위한 VQA 벤치마크
OutdoorKorean: 복잡한 야외 장면에서 한국어 문자를 인식하는 벤치마크 (AIHub 제공)
K-Handwriting: 다양한 필체를 포함한 한국어 손글씨 인식하는 벤치마크 (AIHub 제공)
KoEduBench: 검정고시, 대학수학능력검정시험 문제로 구성된 한국 지식 추론 VQA 벤치마크
KoCertBench: 한국 자격증 시험 문제를 다루는 전문적인 VQA 벤치마크

언어 벤치마크

* 표시는 한국어 벤치마크입니다.

Category	Benchmarks
Category	Benchmarks	A.X 4.0 VL Light	Qwen2.5-VL-7B	InternVL3-8B	VARCO-VISION-2.0-14B
Knowledge	KMMLU*	60.5	45.6	50.9	58.8
Knowledge	MMLU	72.6	71.9	77.5	80.7
Math	HRM8K*	40.6	25.4	34.6	49.5
Math	MATH	56.5	61.7	65.1	71.1
General	Ko-MT-bench*	68.9	51.5	59.5	75.9
General	MT-bench	72.9	73.2	69.9	76.6
IF	Ko-IFEval*	71.8	55.0	46.1	57.2
IF	IFEval	81.9	66.6	67.5	75.3

언어 벤치마크는 A.X 4.0 평가시 사용한 방식을 동일하게 적용하여 평가하였습니다.

활용 예시

예제 1: 한국 랜드마크 설명

🙋‍♂️ 이 섬에 대해 설명해줘.

👉 A.X 4.0 VL Light의 답변 보기

독도는 대한민국의 동해에 위치한 섬으로, 울릉도에서 동남쪽으로 약 87.4km 떨어져 있습니다. 이 섬은 두 개의 주요 섬인 동도와 서도로 이루어져 있으며, 주변에는 89개의 작은 바위섬들이 있습니다.

독도의 특징

위치: 동해, 울릉도 동남쪽 87.4km

구성: 동도와 서도, 89개의 작은 바위섬

지형: 가파른 절벽과 바위들로 이루어져 있으며, 겨울철에는 눈이 쌓여 하얀 풍경을 자아냅니다.

주변 환경: 푸른 바다와 하얀 파도가 어우러져 아름다운 경관을 제공합니다.

역사적, 지리적 중요성

역사적 의미: 독도는 역사적으로 대한민국의 영토로 인정받아 왔습니다. 여러 역사적 기록과 문헌에서 독도가 한국의 영토임을 확인할 수 있습니다.

지리적 중요성: 독도는 동해의 전략적 요충지로, 해양 자원 개발과 안보 측면에서 중요한 역할을 합니다.

인프라

등대: 섬의 중앙에는 하얀 등대가 위치해 있으며, 이는 항해 안전을 위해 중요한 역할을 합니다.

건물: 등대 주변으로는 몇 채의 건물이 자리 잡고 있어, 관리 인력의 거주와 관리를 위한 시설이 마련되어 있습니다.

부두: 섬의 해안가에는 콘크리트로 만들어진 부두가 있으며, 이는 선박의 정박을 가능하게 합니다.

독도는 자연의 아름다움과 역사적, 지리적 중요성을 동시에 지닌 특별한 섬입니다. 이 섬을 방문하면 자연의 위엄과 함께 한국의 역사를 깊이 이해할 수 있는 좋은 기회가 될 것입니다. 혹시 독도에 대한 다른 궁금한 점이 있으면 말씀해 주세요!

예제 2: 표 그림 → LaTeX 형식 변환

🙋‍♂️ 표를 latex로 표현해줘.

👉 A.X 4.0 VL Light의 답변 보기

\documentclass[border=10pt]{standalone}
\usepackage{booktabs}
\usepackage{colortbl}
\usepackage{xcolor}
\usepackage{multirow}
\usepackage{array}
\usepackage{fontspec}
\setmainfont{Calibri}

\definecolor{header}{RGB}{0,102,204}
\definecolor{odd}{RGB}{245,245,245}
\definecolor{even}{RGB}{255,255,255}

\begin{document}
\begin{tabular}{l l *{4}{>{\centering\arraybackslash}p{2cm}}}
\rowcolor{header}\textcolor{white}{\textbf{Category}} & \textcolor{white}{\textbf{Benchmarks}} & \textcolor{white}{\textbf{A.X 4.0 VL Light}} & \textcolor{white}{\textbf{Qwen2.5-VL-7B}} & \textcolor{white}{\textbf{InternVL3-8B}} & \textcolor{white}{\textbf{VARCO-VISION-2.0-14B}} \\
\hline
\rowcolor{odd}Knowledge & KMMLU* & 60.5 & 45.6 & 50.9 & 58.8 \\
& MMLU & 72.6 & 71.9 & 77.5 & 80.7 \\
\rowcolor{odd}Math & HRM8K* & 40.6 & 25.4 & 34.6 & 49.5 \\
& MATH & 56.5 & 61.7 & 65.1 & 71.1 \\
\rowcolor{odd}General & Ko-MT-bench* & 68.9 & 51.5 & 59.5 & 75.9 \\
& MT-bench & 72.9 & 73.2 & 69.9 & 76.6 \\
\rowcolor{odd}IF & Ko-IFEval* & 71.8 & 55.0 & 46.1 & 57.2 \\
& IFEval & 81.9 & 66.6 & 67.5 & 75.3 \\
\end{tabular}
\end{document}

예제 3: 차트 그림 → Markdown 형식 변환

🙋‍♂️ 이 사진에 나온 각 모델의 벤치마크별 성능을 markdown 테이블로 소숫점 첫째자리까지 정리해줘.

👉 A.X 4.0 VL Light의 답변 보기

A.X 4.0 VL Light Qwen2.5-VL-7B InternVL-8B Varco-Vision-2.0-14B Qwen2.5-VL-32B

Knowledge 57.3 53.6 53.6 39.1 52.1

Culture 80.0 64.4 64.6 71.9 72.3

Document 89.7 86.4 83.7 80.4 91.8

Language 60.3 45.4 51.1 58.9 55.0

예제 4: 코드 구현

🙋‍♂️ 이 알고리즘을 코드로 구현해줘.

👉 A.X 4.0 VL Light의 답변 보기

병합 정렬 알고리즘 코드 구현

병합 정렬(Merge Sort)은 분할 정복(Divide and Conquer) 전략을 사용하는 효율적인 정렬 알고리즘입니다. 이 알고리즘은 리스트를 재귀적으로 반으로 나누고, 각 부분을 정렬한 후 다시 합치는 과정을 반복합니다. 아래는 Python으로 구현한 병합 정렬 알고리즘의 코드입니다:
def merge_sort(arr):
    # 리스트의 길이가 1 이하일 경우 이미 정렬된 상태이므로 반환
    if len(arr) <= 1:
        return arr
    
    # 리스트를 두 부분으로 나눔
    mid = len(arr) // 2
    left_half = arr[:mid]
    right_half = arr[mid:]
    
    # 각 부분을 재귀적으로 정렬
    left_sorted = merge_sort(left_half)
    right_sorted = merge_sort(right_half)
    
    # 두 정렬된 부분을 병합
    return merge(left_sorted, right_sorted)

def merge(left, right):
    merged = []
    left_index = 0
    right_index = 0
    
    # 두 리스트를 비교하여 작은 값을 merged 리스트에 추가
    while left_index < len(left) and right_index < len(right):
        if left[left_index] < right[right_index]:
            merged.append(left[left_index])
            left_index += 1
        else:
            merged.append(right[right_index])
            right_index += 1
    
    # 남은 요소들을 merged 리스트에 추가
    merged.extend(left[left_index:])
    merged.extend(right[right_index:])
    
    return merged

# 예시 배열
arr = [21, 10, 12, 20, 25, 13, 15, 22]
sorted_arr = merge_sort(arr)
print("정렬된 배열:", sorted_arr)
코드 설명

merge_sort 함수:

입력된 배열의 길이가 1 이하일 경우 이미 정렬된 상태이므로 그대로 반환합니다.

배열을 중간 지점에서 두 부분으로 나눕니다.

각 부분을 재귀적으로 merge_sort 함수를 호출하여 정렬합니다.

정렬된 두 부분을 merge 함수를 통해 병합합니다.

merge 함수:

두 개의 정렬된 리스트를 받아서 하나의 정렬된 리스트로 병합합니다.

두 포인터를 사용하여 각 리스트의 요소를 비교하고, 더 작은 값을 결과 리스트에 추가합니다.

한 리스트의 모든 요소가 추가되면, 다른 리스트의 남은 요소들을 결과 리스트에 추가합니다.

이 코드를 실행하면, 주어진 배열 [21, 10, 12, 20, 25, 13, 15, 22]가 정렬되어 [10, 12, 13, 15, 20, 21, 22, 25]로 출력됩니다. 병합 정렬은 시간 복잡도가 O(n log n)으로 효율적이며, 안정적인 정렬 알고리즘입니다.

예제 5: 수학 문제 풀이

🙋‍♂️ 이 문제를 두가지 다른 방식으로 풀어봐. 수식과 기호는 $$를 이용해서 표현해.

👉 A.X 4.0 VL Light의 답변 보기

풀이 1: 점 (5, 0)을 이용한 방법

주어진 함수와 점 대입:

함수 $y = \sqrt{x-1} + a$에 점 $(5, 0)$을 대입합니다.

$0 = \sqrt{5-1} + a$

방정식 풀이:

$0 = \sqrt{4} + a$

$0 = 2 + a$

$a = -2$

따라서, 상수 $a$의 값은 $-2$입니다.

풀이 2: 점근선과 교점 이용

함수 분석:

함수 $y = \sqrt{x-1} + a$는 $y = \sqrt{x-1}$을 $y$축 방향으로 $a$만큼 평행이동한 것입니다.

$y = \sqrt{x-1}$의 점근선은 $x = 1$입니다.

교점 확인:

그래프에서 $x = 1$일 때 $y = -2$임을 확인할 수 있습니다.

따라서, $y = \sqrt{x-1} + a$에 $x = 1$, $y = -2$를 대입합니다.

$-2 = \sqrt{1-1} + a$

$-2 = 0 + a$

$a = -2$

따라서, 상수 $a$의 값은 $-2$입니다.

마무리하며

A.X 4.0 VL Light는 한국어와 한국 이미지·문서 처리에 특화된 비전 언어 모델로, 기업 환경에서 요구되는 정확도, 처리 효율, 데이터 보안 요건을 모두 만족시키는 실전형 AI 모델입니다. SK텔레콤은 고품질의 한국어 및 비전 데이터를 기반으로 A.X 4.0 VL Light를 정교하게 학습하였으며, 이는 단순한 대안이 아닌 국내 비전 언어 AI 도입을 위한 최적의 선택지로 자리매김할 수 있습니다.

더 자세한 정보가 필요하시거나 궁금한 점이 있으시면 아래 연락처로 편하게 문의해 주시기 바랍니다.

연락처: a.x@sk.com

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
assets		assets
README.en.md		README.en.md
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

A.X 4.0 VL Light: 한국 특화 비전 언어 모델

A.X 4.0 VL Light, 무엇이 다른가요?

핵심 기술은?

효과적인 학습 방법

A.X 4.0의 장점 계승

고품질 데이터 구축 파이프라인

벤치마크 측정 결과

이미지 벤치마크

언어 벤치마크

활용 예시

예제 1: 한국 랜드마크 설명

독도의 특징

역사적, 지리적 중요성

인프라

예제 2: 표 그림 → LaTeX 형식 변환

예제 3: 차트 그림 → Markdown 형식 변환

예제 4: 코드 구현

병합 정렬 알고리즘 코드 구현

코드 설명

예제 5: 수학 문제 풀이

풀이 1: 점 (5, 0)을 이용한 방법

풀이 2: 점근선과 교점 이용

마무리하며

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

	A.X 4.0 VL Light	Qwen2.5-VL-7B	InternVL-8B	Varco-Vision-2.0-14B	Qwen2.5-VL-32B
Knowledge	57.3	53.6	53.6	39.1	52.1
Culture	80.0	64.4	64.6	71.9	72.3
Document	89.7	86.4	83.7	80.4	91.8
Language	60.3	45.4	51.1	58.9	55.0

Folders and files

Latest commit

History

Repository files navigation

A.X 4.0 VL Light: 한국 특화 비전 언어 모델

A.X 4.0 VL Light, 무엇이 다른가요?

핵심 기술은?

효과적인 학습 방법

A.X 4.0의 장점 계승

고품질 데이터 구축 파이프라인

벤치마크 측정 결과

이미지 벤치마크

언어 벤치마크

활용 예시

예제 1: 한국 랜드마크 설명

독도의 특징

역사적, 지리적 중요성

인프라

예제 2: 표 그림 → LaTeX 형식 변환

예제 3: 차트 그림 → Markdown 형식 변환

예제 4: 코드 구현

병합 정렬 알고리즘 코드 구현

코드 설명

예제 5: 수학 문제 풀이

풀이 1: 점 (5, 0)을 이용한 방법

풀이 2: 점근선과 교점 이용

마무리하며

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Packages