"한글은 생성형 인공지능(AI)의 성능을 극대화할 수 있습니다."
8일 챗GPT에 한글이 생성형 AI에 적합한 이유를 묻자 이 같은 답변이 나왔다. AI 시대를 맞아 한글이 주목받고 있다. 우리 문자가 지닌 고유의 특성이 LLM(거대언어모델)을 포함한 AI 개발에 유리하다는 것이다.
한글에 대해 챗GPT는 ▷체계적이고 규칙적인 구조 ▷높은 표현력 ▷명확한 문법 ▷문맥 의존성 등을 근거로 제시했다.
한글은 자음·모음의 결합으로 음절을 형성하는 구조를 특성으로 지닌다. 실제 발음에 대응하는 음절 단위 분석이 용이해 AI모델이 글자를 쉽게 인식하고 처리하는 것이 가능하다. 또 문법 구조를 파악해 자연스로운 문장을 구현한다.
타 언어는 문자와 실제 발음이 다르고 복잡한 구조를 지니고 있어 학습에 어려움이 있다. 수천개의 문자를 사용하는 한자를 기반으로 한 중국어·일본어는 다양한 의미와 용법을 익힐 수 있도록 AI모델을 설계해야 한다. 이에 비해 한국어는 쉽게 정확한 의미를 파악할 수 있어 데이터 학습 시 일관성을 지닌다.
높은 표현력도 강점으로 작용하다. 풍부한 어휘를 기반으로 창의적인 답변을 생성할 수 있다.
문맥에 따라 언어 구현이 달라진다는 특성도 주목할 만하다. LLM은 질문의 맥락을 이해하고 대화의 연속성을 유지하는 역량이 중요한데, 이에 필요한 기능을 강화할 수 있다는 것이다. 피드백을 주고 받으며 상황별로 달라지는 의미를 파악하는 과정에서 추론 능력이 향상된다.
글로벌 빅테크 기업도 한국어 데이터 학습에 속도를 높이고 있다. 구글은 AI 챗봇 '바드'(Bard) 서비스를 시작하면서 영어와 함께 한국어를 첫 지원 대상으로 선정해 관심을 끌었다. 당시 순다르 피차이 구글 최고경영자(CEO)는 "영어를 구사하는 입장에서 어려운 언어이지만, 프로그램 개발에 적합한 언어"라고 언급한 바 있다.
업계에서는 한글의 특성을 잘 살릴 수 있는 AI모델 개발이 중요하다는 의견이 나온다. AI 솔루션 기업 유니바 남명진 대표는 "AI가 자연어를 처리할 때 '토크나이징'(텍스트를 특정 기준으로 나누는 작업)을 수행하는데 아직 한글은 비효율적인 면이 있다. 한글로 된 데이터를 충분히 확보하고 성능을 개선하기 위한 노력이 필요하다"고 했다.
댓글 많은 뉴스
조국, '징역 2년 확정' 의원직 상실…검찰 "내일까지 출석 통보 예정" [영상]
[전문] 尹 "비상계엄, 야당 패악에 경고한 것…탄핵·수사 당당히 맞설 것"
'한동훈 암살 작전' 관련 김병주 의원실 "일부 사실 관계 확인, 증거인멸 방지 위한 긴급수사 요구"
한동훈 "尹 내란 자백한 것, '탄핵' 찬성해야"…친윤은 "뭐 하자는거냐"
한동훈 "네 마음 안다"며 눈시울…김상욱 "尹 대통령이 보수의 배신자"