매일신문

AI, 한국어 어떻게 이해할까?

로봇
mWiz 이 기사 포인트

"인공지능은 마치 쉐프가 재료를 분해 후 재조합하듯이 한글 이해해"

언어모델 학습용 데이터 처리 예시. 한국지능정보사회진흥원 제공
언어모델 학습용 데이터 처리 예시. 한국지능정보사회진흥원 제공

인공지능(AI)이 한국어를 이해하는 과정은 마치 요리사가 음식을 하는 과정과 비슷하다. 요리사가 재료를 손질해 분해한 뒤 재조합하면서 음식을 만들게 되는데, 한국어도 글자를 작은 단위인 '토큰'으로 나누고 인공지능이 이 패턴을 인식해 재조합하는 과정에서 학습한다.

8일 한국지능정보사회진흥원(NIA)에 따르면 인공지능이 한국어를 이해하는 과정은 자연어 처리(NLP)와 딥러닝(심층학습) 등 크게 두 가지의 과정으로 나뉜다.

자연어 처리는 컴퓨터가 인간의 언어를 이해하고 처리할 수 있게 도와주는 분야이다. 글자 자료(텍스트 데이터)를 분리하고 형태소 분석기를 거쳐 문법 구조와 어휘의 의미를 이해하는 데 목적이 있다.

딥러닝은 그다음 단계에서 글자의 맥락을 이해하는 데 중요한 역할을 한다. 다양한 목적과 맥락을 가진 문단, 문장, 단어들 간의 복잡한 패턴을 파악하는 것이다.

한국어는 영어와 어순이 다르고 화자의 섬세한 맥락을 풍부하게 표현할 수 있다. 이 때문에 한국말은 끝까지 들어봐야 결론을 안다는 말이 나온 것이다. 이처럼 풍부한 표현을 제대로 학습하기 위해서는 다양한 형태의 대규모 패턴 예시, 즉 인공지능 학습용 한국어 데이터를 구축하여 인공지능에게 학습시켜야 한다.

인공지능은 ▷획득 ▷정제 ▷가공 ▷검수 과정으로 데이터를 학습하게 된다. 이 과정에서 얼마나 고품질의 데이터를 준비했느냐에 따라 한국어 이해 수준이 달라진다.

신신애 NIA 지능데이터본부 본부장은 "인공지능 학습용 데이터를 구축하는 과정은 AI 모델 학습을 위한 코딩 과정과 다소 차이가 있다"며 "그러나 AI 모델이 한국어를 어떻게 학습하는지 깊이 있는 이해가 있어야 AI 모델에 최적화된 한국어 데이터를 설계하고 구축할 수 있다"고 했다.

0700
AI 뉴스브리핑
정치 경제 사회 국제
이재명 정부의 삼성전자와 SK하이닉스의 호남권 반도체 투자 지원에 대해 정치권에서는 민주당의 통합 정책이 사라졌다는 우려가 커지고 있으며, ...
대구 수성알파시티가 전국 최초의 스마트도시 특화단지로 지정되며, 대구시는 이를 통해 인공지능(AI), 모빌리티, 로봇, 지능형 관제 분야의 ...
경기 시흥시의 화재 현장에서 농장 관리자인 60대 남성 A씨의 불에 탄 시신이 발견되었으나, 경찰과 소방당국이 3차례 수색을 진행했음에도 불...
중동 전쟁의 여파로 호르무즈 해협에 있던 한국 선박 중 1척이 안전 해역에 도착하면서 남은 선박은 2척으로 줄어들었다. 남재헌 해양수산부 차..

많이 본 뉴스

일간
주간
월간