AI가 수능 풀어보니…제미나이 92점, 韓모델 20점대

AI 트렌드

AI가 수능 풀어보니…제미나이 92점, 韓모델 20점대

동아일보 | 업데이트 2025.12.16

기사와 직접적 관련 없는 참고사진. 게티이미지

국내 기업들이 개발한 인공지능(AI) 모델에 대학수학능력시험(수능) 문제를 풀게 한 결과, 오픈AI와 구글 등 해외의 AI 모델에 비해 크게 낮은 점수를 받은 것으로 나타났다.

김종락 서강대 수학과 교수 연구팀은 15일 정부가 추진하는 ‘국가대표 AI’ 프로젝트 참여사 5개 팀의 대규모언어모델(LLM)과 챗GPT 등 해외 5개 모델에게 수능 수학 20문제·논술 30문제를 풀게 했다고 밝혔다.

연구팀은 수능 수학의 △공통과목 △확률과 통계 △미적분 △기하 영역에서 가장 어려운 5문항씩 총 20문제, 서울 주요 대학 10곳의 논술 기출문제, 인도 대학 입시 10문제, 일본 도쿄대 공대 대학원 입시 10문제 등 총 50문제를 선정해 평가를 진행했다.

한국 모델 중에는 앞서 정부가 ‘독자 AI 파운데이션 모델 프로젝트’ 정예팀으로 뽑은 △업스테이지 솔라 프로-2 △LG AI연구원 엑사원 4.0.1 △네이버 HCX-007 △SK텔레콤 A.X 4.0(72B) △엔씨소프트 라마 바르코 8B 인스트럭트 등을 대상으로 테스트를 진행했다. 정부는 해외 모델 종속을 막기 위해 자국 데이터·인프라·인력으로 독자 개발하는 소버린 AI(Sovereign AI) 확보에 힘쓰고 있다.

연구팀은 해외 모델의 경우 △오픈AI GPT-5.1 △구글 제미나이 3 프로 프리뷰 △앤트로픽 클로드 오푸스 4.5 △xAI 그록 4.1 패스트 △딥시크 V3.2 등을 선택해 테스트했다.

테스트 결과 제미나이는 92점, 클로드 오푸스 4.5는 84점을 받는 등 해외 모델의 점수는 76~92점으로 고르게 높았다. 한국 모델 가운데에는 솔라 프로-2가 58점으로 가장 높았고, 나머지는 20점대에 머물렀다. 경량모델인 라마 바르코 8B 인스트럭트는 2점이었다.

연구팀은 한국 모델들이 단순 추론으로는 대부분 문제를 풀지 못해 파이선(Python) 계산 툴을 활용할 수 있도록 설정했음에도 낮은 정답률을 보였다고 밝혔다.

연구진이 대학생 수준부터 교수급 연구 난도까지 세분화한 자체 문제 세트 ‘엔트로피매스’(EntropyMath) 100문제 중 10문항을 추가로 구성해 진행한 테스트에서도 격차가 컸다. 해외 모델은 82.8~90점을, 한국 모델은 7.1~53.3점 수준이었다.

문제 풀이를 3번 시도해 정답을 맞히면 통과로 조건을 완화했을 때도 해외 모델은 대부분 90점 이상을 받았다. 그록은 만점을 기록했다.

같은 조건에서 솔라 프로-2는 70점, 엑사원은 60점, HCX-007은 40점, A.X 4.0은 30점, 라마 바르코는 20점을 받았다.

김 교수는 “최근 여러 곳에서 한국 AI 모델들의 수능·논술 성능 평가 문의가 있어 자체적으로 검증을 진행했다”며 “한국 AI가 해외 프런티어 모델과의 기술 격차를 좁히기 위해선 근본적인 모델 구조 개선과 데이터 품질 강화가 필요하다”고 설명했다.

이어 “한국 5개 모델은 기존 공개 버전인 만큼 각 팀의 국가대표 AI 버전이 새로 공개되면 자체 개발 문제로 다시 성능을 테스트하겠다”고 전했다.

이혜원 기자 hyewon@donga.com

DBR의 교육솔루션

AI가 수능 풀어보니…제미나이 92점, 韓모델 20점대