상세 컨텐츠

본문 제목

국산 오픈소스 LLM의 출격 : 엑사원, 하이퍼클로바X, 카나나가 이끄는 AI 생태계

궁금이

by 인앤건LOVE 2025. 5. 11. 18:10

본문

한국의 인공지능(AI) 기술이 세계 무대에서 주목받고 있습니다. 특히 대형 언어모델(LLM)의 오픈소스 공개 경쟁이 뜨겁게 달아오르며, LG AI연구원의 엑사원, 네이버의 하이퍼클로바X 시드, 그리고 카카오의 카나나가 국내 AI 생태계에 새로운 활력을 불어넣고 있습니다. 이들 모델은 한국어 특화 성능과 경량화 기술로 글로벌 경쟁력을 입증하며, 스타트업과 연구자들에게 상업적 활용 기회까지 제공하고 있습니다. 이번 포스트에서는 국산 오픈소스 LLM의 최신 동향과 그 의미를 4000자 수준으로 자세히 탐구해 보겠습니다.


국산 오픈소스 LLM의 부상: 시장의 새로운 흐름

2025년 4월, 한국의 AI 업계는 오픈소스 LLM 공개로 뜨거운 한 해를 맞이했습니다. LG AI연구원이 2024년 12월 엑사원-3.5를 공개하며 포문을 열었고, 네이버가 2025년 4월 하이퍼클로바X 시드 시리즈로 뒤를 이었습니다. 카카오 역시 카나나 시리즈로 경쟁에 뛰어들며, 국내 오픈소스 LLM 시장이 본격적으로 형성되고 있습니다.

이들 모델은 단순히 기술적 성취를 넘어, 한국어와 한국 문화를 반영한 ‘소버린 AI’로서 글로벌 시장에서 차별화된 경쟁력을 갖추고 있습니다. 특히, 상업적 활용이 가능한 라이선스와 경량화 기술은 중소기업과 스타트업의 AI 도입 장벽을 낮추며 생태계 확장을 가속화하고 있습니다.


엑사원 : 한국어와 영어의 균형 잡힌 강자

LG AI연구원의 엑사원 시리즈는 한국 오픈소스 LLM 시장의 선두주자입니다. 2024년 8월 공개된 엑사원-3.0은 글로벌 오픈소스 모델 중 최상위 성능을 기록하며 주목받았고, 2024년 12월 후속 모델 엑사원-3.5와 최근 **엑사원 딥(DEEP)**이 허깅페이스에 공개되며 기술력을 과시했습니다.

엑사원은 KMMLU(한국어 멀티태스크 언어 이해), HAERAE-Bench(한국어 법률 벤치마크), KoBEST(한국어 감정 분석) 등 한국어 특화 벤치마크에서 뛰어난 성능을 기록했습니다. 원라인에이아이의 구구단 실험(1~100 두 자리 곱셈)에서는 한국어와 영어 입력 모두에서 안정적인 정확도를 보여, 언어 간 균형 잡힌 성능이 강점으로 평가받았습니다. 특히 제곱수와 10의 자리 곱셈에서 높은 정확도를 기록했으며, 피연산자 순서에 따른 미세한 성능 차이도 관찰되었습니다.

커뮤니티 반응도 뜨겁습니다. 레딧의 ‘LLM’ 및 ‘오픈소스AI’ 커뮤니티에서는 엑사원 딥의 7B(70억 파라미터) 모델이 고난도 벤치마크 **GPQA+**에서 62% 성능을 기록했다는 평가와, 2.4B 모델이 라즈베리파이나 스마트폰에서도 실행 가능한 경량화 성취가 화제가 되었습니다. 이러한 경량화는 온디바이스 AI 구현에 필수적이며, 엑사원이 실용성과 접근성을 모두 갖춘 모델임을 보여줍니다.

그러나 엑사원의 라이선스는 연구 목적으로 제한되어 상업적 활용에 제약이 있습니다. LG는 이를 보완하기 위해 기업용 맞춤형 모델과 챗엑사원 같은 내부 AI 서비스를 개발 중이며, 연내 정식 서비스 출시를 목표로 하고 있습니다.


하이퍼클로바X 시드 : 상업적 활용의 문을 열다

네이버는 2025년 4월 24일 하이퍼클로바X 시드 시리즈(3B, 1.5B, 0.5B)를 공개하며 오픈소스 LLM 경쟁에 본격 합류했습니다. 이 모델은 MIT 라이선스를 채택해 상업적 활용이 가능하다는 점에서 기존 국산 모델과 차별화됩니다. 공개 하루 만에 허깅페이스에서 2400건 이상 다운로드되며 폭발적인 관심을 받았고, 파인튜닝 및 양자화 파생모델이 빠르게 확산되며 생태계 확장을 이끌고 있습니다.

하이퍼클로바X 시드는 30억 파라미터 규모의 소형 모델로, 한국어 벤치마크 KMMLU에서 48.47점을 기록했습니다. 이는 과거 하이퍼클로바X-라지(53.4점)에 비해 낮지만, 온디바이스 환경을 고려한 경량 모델로는 의미 있는 성과입니다. HAERAE-BenchCLICK(한국어 문맥 이해)에서도 안정적인 성능을 보였습니다.

특히, 뉴욕대 조경현 교수, 스퀴즈비츠 김형준 대표, 바이오넥서스 김태형 대표 등 AI 전문가들이 SNS에서 긍정적인 후기를 남기며 기대감을 높였습니다. 그러나 구구단 실험에서 정답 형식을 맞추지 못해 평가 점수가 낮아지는 포맷 일관성 문제가 드러났습니다. 네이버는 이를 해결하기 위해 한국어 데이터셋 보강을 계획 중입니다.

네이버는 하이퍼클로바X를 멀티모달 LLM으로 고도화하며 이미지와 음성 처리 기능을 강화하고 있습니다. 2024년 8월 공개된 음성 AI 기술(스피치 X)은 자연스러운 대화와 감정 표현이 가능하며, 클로바X는 이미지 인식 기능을 추가해 GPT-4o(78%)를 상회하는 84%의 정답률을 기록했습니다. 이러한 멀티모달 역량은 네이버가 B2C와 B2B 시장에서 글로벌 빅테크와 경쟁하려는 전략의 일환입니다.


카나나 : 잠재력을 품은 신예

카카오는 카나나 시리즈로 오픈소스 LLM 시장에 합류했습니다. 원라인에이아이의 구구단 실험에 따르면, 카나나는 한국어 입력에서 양호한 성능을 보였으나, 영어 입력에서는 답변 길이 문제로 성능이 저하되었습니다. 토큰 제한 완화 시 영어 성능이 개선될 여지가 있는 것으로 나타났습니다.

카나나는 아직 초기 단계로, 엑사원이나 하이퍼클로바X에 비해 벤치마크 성적이 두드러지지 않습니다. 그러나 카카오의 방대한 사용자 데이터와 서비스 생태계를 활용하면, 향후 한국어 특화 성능과 상업적 활용 가능성이 커질 것으로 기대됩니다. 업계는 카카오가 데이터셋 최적화와 모델 스케일 확장에 집중할 경우 경쟁력을 강화할 것으로 보고 있습니다.


국산 LLM의 강점과 한계

강점 : 한국어 특화와 경량화

국산 오픈소스 LLM의 가장 큰 강점은 한국어 특화 성능입니다. 엑사원과 하이퍼클로바X는 KMMLU, HAERAE-Bench 등에서 글로벌 모델을 능가하며, 한국 문화와 언어의 뉘앙스를 정확히 반영합니다. 예를 들어, 하이퍼클로바X는 한국사와 사회학 벤치마크(KorNAT)에서 오픈AI, 구글, 메타의 LLM을 앞섰습니다.

경량화는 또 다른 경쟁력입니다. 엑사원 딥의 2.4B 모델은 스마트폰에서도 실행 가능하며, 하이퍼클로바X 시드는 GPU 리소스 부담을 줄여 중소기업의 AI 도입을 돕습니다. 네이버의 하이퍼클로바X 대시는 기존 모델 대비 50% 비용 절감과 40% 크기 축소를 달성하며 효율성을 극대화했습니다.

한계 : 소형 모델 중심과 데이터셋 최적화

현재 국산 LLM은 소형 모델(0.5B~7B) 중심으로 공개되어, 고난도 수학 벤치마크(HRM8K) 같은 복잡한 작업에서는 한계가 있습니다. 손규진 원라인에이아이 연구원은 “다양한 크기의 모델이 추가로 등장해야 한국어 AI 생태계가 발전할 것”이라고 지적했습니다.

또한, 포맷 일관성(하이퍼클로바X)과 영어 성능(카나나) 문제는 데이터셋 보강과 파인튜닝으로 해결해야 할 과제입니다. 네이버와 카카오는 한국어 데이터셋 확충과 영어 데이터 학습 비율 조정을 통해 이를 개선할 계획입니다.


글로벌 경쟁 속 국산 LLM의 의미

글로벌 LLM 시장은 오픈AI(GPT-4), 메타(Llama), 구글(Gemma) 등 영어 중심 모델이 주도하고 있습니다. 그러나 영어 기반 LLM은 한국어와 같은 비주류 언어의 뉘앙스를 반영하지 못한다는 비판을 받습니다. 이에 따라 지역 고유성을 반영한 소버린 AI 수요가 증가하며, 국산 LLM은 한국 시장뿐 아니라 동남아, 중동 등 비영어권 시장 공략의 교두보가 될 수 있습니다.

네이버는 태국, 필리핀 등 동남아 시장과 중동 진출을 계획하며, NAVER AI Safety Framework를 통해 안전한 AI 생태계를 구축하고 있습니다. LG는 글로벌 파트너십을 통해 엑사원의 산업 적용을 확대하고 있으며, 카카오는 국내 서비스 생태계를 활용해 카나나의 경쟁력을 키울 전망입니다.


미래 전망 : 한국 AI 생태계의 도약

국산 오픈소스 LLM의 등장은 학계, 스타트업, 중소기업이 저비용으로 AI를 활용할 수 있는 기회를 제공합니다. 하이퍼클로바X 시드의 MIT 라이선스는 상업적 활용을 촉진하며, 엑사원의 경량화 기술은 온디바이스 AI 시대를 앞당기고 있습니다. 카카오의 카나나는 잠재력을 키우며 시장 다변화를 이끌고 있습니다.

그러나 글로벌 빅테크와의 경쟁에서 살아남으려면, 대규모 모델 개발과 데이터셋 다양화가 필수입니다. 정부와 기업의 협력으로 국가 차원의 AI 생태계 구축이 이루어진다면, 한국은 소버린 AI의 선도국으로 도약할 수 있을 것입니다. 손규진 연구원의 말처럼, “다양한 크기의 모델과 데이터셋 확장이 한국 AI의 미래를 결정할 것”입니다.


국산 LLM, 세계 무대로의 첫걸음

엑사원, 하이퍼클로바X, 카나나는 한국 AI의 현재와 미래를 보여주는 상징입니다. 한국어 특화 성능, 경량화, 상업적 활용 가능성은 이들 모델이 단순한 기술을 넘어 산업과 일상을 혁신할 잠재력을 갖췄음을 증명합니다. 글로벌 AI 시장에서 한국의 목소리를 내기 위해, 정부, 기업, 연구자가 힘을 모아 지속적인 투자와 혁신을 이어가야 할 때입니다.

 

728x90

관련글 더보기