챗GPT에게 경북대 논술시험 치게 했더니

2026학년도 AAT 전 계열 문제 풀이… 실제 채점 교수진이 직접 평가
인문계열 고득점, 자연Ⅰ도 합격 가능권… 의치수는 합격선 못 미쳐
"문제 해결 능력 인상적… 논리 전개·복합 해석은 아직 한계"

생성형 AI의 성능이 빠르게 고도화되는 가운데, ChatGPT가 실제 대학 논술시험에서도 경쟁력을 보일 수 있을지 관심이 커지고 있다.

이에 매일신문 취재진은 최신 모델인 GPT-5.5 기반 ChatGPT에게 2026학년도 경북대학교 논술(AAT) 인문계열·자연계열Ⅰ·자연계열Ⅱ 문제를 실제 수험생처럼 풀게 한 뒤, 해당 답안을 실제 AAT 문제 출제 또는 채점 경험이 있는 교수진에게 의뢰해 실채점 기준에 준하는 방식으로 평가를 진행했다.

2012학년도부터 도입된 경북대 고유 논술시험인 AAT(Academic Aptitude Test)는 고교 교육과정을 기반으로 이해력과 분석력, 논리적 사고력, 문제해결 능력을 평가하는 전형이다. 암기 위주의 평가에서 벗어나 자기주도학습과 독서·토론 등을 통해 길러진 사고력을 측정하는 데 초점을 두고 있으며, 제시문과 함께 주어진 문항에 단답형 또는 약술형으로 답하는 방식으로 진행된다. 매년 4천~6천명 안팎의 수험생이 몰릴 정도로 관심이 높은 전형으로, 2026학년도에는 554명 모집에 5천283명이 지원했다.

AAT는 모집단위에 따라 인문계열·자연계열Ⅰ·자연계열Ⅱ로 나뉜다. 인문계열은 문학·철학·사회·경제·정책 등 다양한 분야의 제시문을 바탕으로 현대 사회 주요 쟁점을 분석하고 논리를 전개하는 문제가 출제된다. 자연계열Ⅰ은 수학과 과학 통합형 문제를 통해 과학 자료 분석 능력과 논리적 추론 능력을 평가하며, 의예·치의예·수의예 지원자가 응시하는 자연계열Ⅱ는 의학논술을 포함해 수학·과학 개념을 종합적으로 활용해야 하는 고난도 문제로 구성된다.

◆인문계열 고득점, 자연Ⅱ 불합격

채점 결과 인문계열에서 ChatGPT는 350점 만점에 328점을 기록했다. 이는 인문계열 입학자들의 모집단위별 평균점수(원점수) 분포가 174.00~250.17점 수준인 점을 고려하면 매우 높은 점수다.

다만 일부 문항에서는 문제의 핵심 논리를 정확히 짚어내지 못하는 한계도 드러냈다. 실제로 인문계열 2-1 문항에서는 '대출이 집값 상승의 원인인지, 집값 상승이 대출 확대의 원인인지'를 구분해 설명해야 했지만, ChatGPT는 두 논리를 혼동한 답안을 작성해 감점을 받았다.

자연계열Ⅰ에서는 350점 만점에 247점(과학 67점·수학 180점)을 획득했다. 자연Ⅰ 입학자들의 모집단위별 평균점수는 최고 230.17점에서 최저 60.17점까지 분포해 있다는 점을 감안하면, AI가 나쁘지 않은 문제 해결 능력을 보였다는 평가가 나온다.

반면 의예·치의예·수의예 지원자가 응시하는 자연계열Ⅱ에서는 350점 만점에 115점에 그치며 절반에도 미치지 못했다. 실제 의치수 계열 입학자 평균 점수는 147.47점으로, AI는 합격권에 도달하지 못한 것으로 나타났다.

일부 문항에서는 a/b를 구해야 하는데 b/a를 구하는 식의 실수도 저질렀다.

윤민영 경북대 입학부처장은 "인문논술은 대부분 전형에서 충분히 합격 가능한 수준이고, 자연계열Ⅰ 역시 다른 전형 요소에서 평균 수준만 받는다면 합격 가능성이 있는 점수"라며 "다만, 자연계열Ⅱ는 합격선과는 거리가 있는 수준"이라고 총평했다.

◆교수진이 짚은 챗GPT 논술 약점은

채점에 참여한 교수들은 생성형 AI가 상당한 수준의 문제 해결 능력을 보여줬다고 평가하면서도, 대체로 논술형 평가에서 핵심인 논리 전개와 복합 제시문 해석 능력에서는 아직 한계가 있다는 평가를 남겼다.

2026학년도 경북대 인문계열 AAT 출제위원장을 맡았던 A교수는 채점 소감에 대해 "놀랍지만 놀랍지 않다"고 짧게 평가했다. 생성형 AI의 최근 성능 발전 속도를 고려하면 예상 가능한 결과이면서도, 실제 논술시험에서 높은 점수를 기록한 점 자체는 인상적이라는 의미로 풀이된다.

자연계열 과학 분야 채점을 맡은 윤민영 부처장은 ChatGPT 답안에 대해 "우선 기본적인 문제 인식 능력 자체는 나쁘지 않은 것 같다"며 "문제 이해 능력도 괜찮은 편이지만, 풀이를 전개하는 과정에서 한 번에 논리적으로 정확한 답을 만들어내는 데는 아직 어려움이 있는 것 같다"고 평가했다.

또 "채점 결과를 보면 답이 완전히 틀려 0점이 된 문제는 거의 없었다"며 "다만 중간 풀이 과정의 논리가 부족하다 보니 부분 점수를 받지 못한 경우가 컸다"고 부연했다.

전년도 출제위원이자 자연계열 수학 문제 채점을 맡은 B교수는 "자연계열Ⅰ 수학에서는 정답 자체는 대부분 맞췄지만, 논술형 평가에서 중요한 중간 도출 과정과 논리 전개가 충분히 드러나지 않았다"며 "이 때문에 약 80점 정도 감점이 이뤄졌다"고 말했다.

이어 자연계열Ⅱ에 대해서는 "문제 구조가 복잡하고 제시문 분량도 많다 보니 AI가 문제 자체를 정확히 분석하지 못한 것으로 보인다"며 "자연계열Ⅱ는 단순 계산보다 문제 조건을 해석하고 필요한 정보를 추출하는 능력이 중요한데, 현재 AI는 긴 제시문과 복합 조건을 완전히 이해하는 데는 아직 한계가 있는 것 같다"고 평했다.

문제를 직접 풀어본 ChatGPT 역시 "의치수 자연Ⅱ는 정말 어려웠다. 특히 긴 제시문 안에서 조건을 정확히 해석하고 필요한 정보를 추려내는 과정이 쉽지 않았다"며 "인간 수험생들이 왜 경북대 논술을 어렵다고 느끼는지 조금은 이해할 수 있었던 시험이었다"고 소감을 전했다.

이어 인문논술에 대해서도 "제시문 간 관계를 파악하고 개념을 적용해야 하는 유형이 많아 생각했던 것보다 훨씬 까다로웠다"고 토로했다.