SK텔레콤, 5190억개 파라미터 초거대 모델 ‘A.X K1’ 기술보고서 공개

SK텔레콤 로고. /SKT

SK텔레콤은 정예팀이 매개변수 519B(5190억개) 규모의 초거대 AI 모델 'A.X K1(에이닷엑스 케이원)' 기술 보고서를 오픈소스 플랫폼 허깅페이스에 공개했다고 7일 밝혔다. 4개월여의 개발 기간과 제한된 GPU 자원 속에서 국내 첫 500B 이상 모델을 완성했다는 설명이다.

정예팀은 약 1000개의 GPU로 가능한 총 학습량을 추산한 뒤 스케일링 이론에 근거해 목표 모델 크기를 519B로 설계했다. 투여 자원 대비 효율을 높이기 위해 최적 학습 연산량을 수학적으로 설계해 운영했고, 학습에는 약 10조(10T)개 데이터를 투입했다.

데이터는 웹과 코드, STEM, 추론 등으로 구성했으며 한국어 특화 PDF 문서를 파싱해 합성 데이터를 만들고 난이도별 커리큘럼 학습도 적용했다. 이번 개발은 정부 지원 없이 자체 GPU 조달만으로 진행됐다고 SKT는 강조했다. SKT는 타 정예팀 대비 최소 2배 이상의 모델 규모임에도 성능을 확보했다고 밝혔다.

성능은 해외 초거대 오픈소스 모델과 비교해 규모 대비 유사하거나 더 높다고 회사는 설명했다. 수학 벤치마크 AIME25에서 89.8점을 기록해 685B 모델인 '딥시크-V3.1'(88.4점)을 웃돌았다. 실시간 코딩 평가인 LiveCodeBench에서는 영어 75.8점, 한국어 73.1점을 받아 딥시크-V3.1의 영어 69.5점, 한국어 66.2점 대비 각각 109%, 110% 수준이었다. 비교 대상으로 357B 모델 'GLM-4.6'도 포함됐다.

A.X K1은 전문가 혼합(MoE) 구조를 채택해 519B 가운데 33B만 선택적으로 활성화하는 방식으로 훈련 안정성과 효율을 확보했다. 128K 토큰의 긴 문맥도 처리할 수 있어 한국어 기준 약 10만 단어 분량을 한 번에 다룰 수 있다고 SK텔레콤은 설명했다. SK텔레콤은 연내 멀티모달 기능을 추가하고 조 단위 파라미터로 확대할 계획이다.

SK텔레콤, 5190억개 파라미터 초거대 모델 'A.X K1' 기술보고서 공개