[황유선이 만난 사람] 박한우 영남대 언론정보학과 교수

"대선 토론회 후 댓글 분석하니 '문재인' '대통령' 단어 최다"

*박한우 교수 프로필 미국 뉴욕주립대학교 (SUNY-Buffalo) 정보학부 커뮤니케이션학과 박사 서울대학교 신문학과(현 언론정보학과) 석사 한국외국어대 신문방송학과 학사 영남대 사이버감성연구소 소장 영국 옥스퍼드인터넷연구소(OII) 방문연구원 네델란드왕립아카데미(NIWI-KNAW) 상임연구원 한국정보화진흥원 정책연구원

사이버 공간에서 우리의 말과 행동은 데이터로 축적된다. 전 세계 수십억 인간의 행동이 방대한 디지털 코드로 변해 사이버 공간에 차곡차곡 쌓여가고 있다. 이른바 '빅 데이터' 시대다. 정치권에서도, 기업마케팅에서도 이미 빅 데이터를 활용하려는 시도가 확산되고 있다.

국내의 빅 데이터 연구 권위자 영남대 언론정보학과 박한우 교수를 만났다. 그는 지금까지 100여 편에 달하는 관련 논문을 게재하며 빅 데이터를 통해 사회를 해석하고 있는 학자다. 게다가 빅 데이터를 활용한 여론조사 특허까지 획득하며 빅 데이터 연구의 체계를 잡아가고 있다. 거대한 디지털 흔적에 불과할 수 있는 빅 데이터를 통해 우리는 이 사회의 어떤 의미를 찾을 수 있는지 그에게 물었다.

-몇 년 전부터 우리 사회에서 빅 데이터가 열풍이다. 그 원인이 무엇인가.

▶우리 사회뿐 아니라 전 세계적 열풍이다. 이미 2013년 옥스퍼드 사전에 빅 데이터가 등재됐다. 좀 더 정확히는 스마트폰과 SNS가 확산된 2010년을 전후해 빅 데이터 열풍이 시작됐다. 역사적으로 그 시작은 구글인데, 1998년부터 구글은 인터넷상의 많은 데이터를 어떻게 잘 축적하고 분석해 그 가치를 뽑아낼 것인가를 고민했다.

-언론정보학과에서 왜 빅 데이터를 연구하느냐는 의견도 있다.

▶빅 데이터란 용어에는 '크다'는 뜻도 있지만 '다양하다'와 '복잡하다'는 의미도 담겨 있다. 큰 데이터를 다루다 보니 컴퓨팅 용량이 많아진다. 시스템이 대용량을 처리하려면 컴퓨터 사이언스학과가 필요하다. 또 데이터의 덩치가 커지니 변수가 많아져서 복잡한 계산을 해야 하고 통계학적 접근이 필요하다. 그런데 통계학이 계산하는 모델과 알고리즘 그리고 컴퓨터 시스템보다 더 중요한 것은 어떤 데이터를 처리하고 그 데이터로부터 어떤 가치를 추출하느냐에 있다. 이 영역이 나와 같은 사회과학자들의 몫이다.

-빅 데이터 속의 가치를 찾아내고 거기에 인문학적인 직관을 부여한다는 것인가.

▶그렇다. 통계학에서는 수식을 짜는 과정에서 변수를 설정한다. 변수 설정을 통계학에만 맡기기는 어렵다. 사회과학적 관점에서 인간의 행동을 알아야 하기 때문이다. 통계학이라고 하는 것은 데이터가 부족한 시대에, 컴퓨터가 발명되기 전 계산을 손으로 할 때 제한된 자료를 바탕으로 세상을 이해하기 위해 생겨난 학문이다. 통계학은 주로 기존의 결과를 바탕으로 그다음의 결과를 안정적으로 추측하는 패턴을 추구한다. 하지만 지금은 데이터 풍부의 시대다. 빅 데이터의 실체는 디지털 세렌디피티(digital serendipity)다. 세렌디피티는 '뜻밖의 발견' '의도하지 않은 발견'을 의미하는데, 빅 데이터는 디지털 세렌디피티를 실현하는 채널이고 이러한 발견은 사회과학자들의 역할이다.

-요즘은 빅 데이터라고 하면 믿고 본다. 과연 빅 데이터는 얼마나 정확한가. 얼마나 신뢰할 수 있을까.

▶빅 데이터는 패턴을 찾아주는 자료다. 패턴을 찾아 추적하는 것을 두고 '정확하다'고 얘기하기보다는 그 패턴을 얼마만큼 잘 그리고 있는가를 보는 것이 더 중요하다. 예를 들어 눈 위에 호랑이 발자국이 있다고 치자. 호랑이 발자국이 노루를 잡으려는 움직임이었는지, 아니면 호랑이가 포수로부터 도망치려는 움직임이었는지를 잘 해석해야 한다. 그런데 그 발자국 패턴 이상의 함의를 찾기 위해서는 호랑이에 대해 잘 알고 있는 사람이 필요하다. 눈 위의 상황을 잘 읽을 수 있는 기상학자도 필요하다. 따라서 빅 데이터의 패턴을 규명할 때 도메인 지식인들(주제 분야 전문가)의 도움이 필요하다. 그러니 빅 데이터 결과를 누가 어떻게 해석했는지에 따라서 신뢰도가 달라진다. 전통적인 여론조사들 간에 오차와 편차가 심한 반면 빅 데이터는 맥락 정보를 제공하기 때문에 신뢰성은 높아지고 있다.

-무작위 샘플 추출을 하는 일반통계와 달리 빅 데이터는 인터넷 이용자들의 데이터라는 점에서 인터넷 편향성 문제가 제기된다.

▶이용자들의 연령, 성별, 지역적 특성 등이 중요한데 그것을 여론조사 가중치 주듯이 보정할 수 있느냐의 문제다. 이를 위해 미디어 지니계수와 엔트로피 개념을 넣은 시스템을 개발해 여론조사 특허를 냈다. 쉽게 말해 페이스북 사용자도 연령별로 불평등 지수 값이 있는데 여타의 매체를 사용하는 연령대 자료를 바탕으로 보정하고, 특정단어가 가지는 다른 단어와의 관계성 등을 고려하는 식이다. 실제로 지난 2012년 대선 때 '문재인 후보가 박근혜 후보를 여론조사에서 넘어서는 골든크로스가 발생했다'고 한 적이 있었다. 그때 실제로 소셜미디어 상에서 문재인 후보가 박근혜 후보를 넘어섰다. 그러나 소셜미디어가 가지는 이용자의 편향성과 불평등성을 보정해서 조사해 봤더니 꼭 그렇지만은 않았다. 결과 역시 박근혜 후보의 승리였다.

-대선 정국이 막 지났다. 그동안 통계조사의 정확성 여부가 회자됐다. 과연 빅 데이터는 승부를 예견할 더 큰 능력이 있는가.

▶기존의 통계는 여론조사다. 여론조사는 1930년대 마케팅에 많이 활용됐다. 사람들에게 전화를 하는 방식이었다. 당시 소비자들은 영광스럽게도 내가 조사에 당첨됐다고 생각하며 성실히 자신의 생각을 답했다. 그로부터 100년 정도 지났다. 지금은 여론조사 전화가 오면 귀찮아하고 끊어버린다. 기법이 문제가 아니라 응답하는 사람들이 달라졌다. 통계기법의 정확성이 아니라 획득하는 데이터 신뢰성이 담보되지 않는 것이다. 하지만, 여론조사는 통계적 신뢰성을 신봉한 나머지 '강요된' 응답을 유인하고 있다. 전화기 너머 전해오는 유권자들의 '입'에만 의존했다. 반면 빅 데이터는 유권자들의 '말'이 아니라 '행동'으로부터 선거캠페인을 분석한다. 이제는 비강제적 방법으로 데이터를 모으는 것이 바람직한 시대다. 유권자들은 댓글을 쓸 때 그 댓글이 수집될 것으로 생각하지 않는다. 포털에서 관심 갖는 후보자 이름을 검색하는 것이 기록으로 남을 거란 생각도 하지 못한다. 빅 데이터의 강점이 여기에 있다.

-승리한 후보들의 빅 데이터 자료에서는 긍정적 신호나 특징이 있는가.

▶여섯 번에 걸친 후보 토론회 후 댓글을 분석해봤다. 문재인 후보와 관련해서 '문재인' '대통령' 두 단어를 같이 언급하는 단어쌍이 가장 많이 출현했다. 빅 데이터는 사람들의 인지구조와 마음을 보여주는 것이기 때문에 이러한 단어쌍은 '문재인'이라는 행위자를 '대통령'으로 생각하는 경우가 훨씬 더 많음을 의미하는 긍정적인 신호다.

-대통령으로 당선된 문재인 후보와 다른 후보들의 빅 데이터 양상은 어떻게 달랐나. 정치적 빅 데이터는 분화된 사회 여론을 보여준다. 결국 이념적으로 유사한 사람들끼리의 집합체이고 그들끼리 만들어 내는 담론 아닌가.

▶그렇다. 그럼에도 불구하고 문재인 후보의 경우 커뮤니티 공동체가 쌍방향성을 보였다. 중소규모의 커뮤니티가 많고 서로 간의 교류가 있었다. 중소규모의 커뮤니티가 많이 만들어져 있으면 선거과정에서 승리할 가능성이 높다고 본다. 안철수 후보의 경우는 커뮤니티 내의 교류가 별로 없었고 참여자보다 오디언스가 많았다. 오디언스는 관망층, 관객층이며 그저 듣고 있는 층이다. 이들은 정보를 적극적으로 내지 않는다. 심상정 후보의 경우는 커뮤니티 공동체형 가운데서도 타이트한 자기 지지층 하나의 집단만이 존재했다. 홍준표 후보의 경우도 촘촘한 집단이 구성됐다.

더불어 이번 대선에는 세대 간 갈등이 컸다는 점에서 각 세대별 주된 정보 채널을 고려해 여러 채널에서 수집된 데이터 분석 결과를 함께 제공할 필요가 있었다. 20대에서는 페이스북과 팟캐스트, 50대 이상에서는 밴드나 카카오톡 공유 메시지 등의 빅 데이터 분석이 유효하다. 예를 들어, 홍준표 후보라면 카카오톡 공유와 문자메시지 빅 데이터를 분석해 실제 선거 결과를 비교해 볼 수도 있다.

-선거 결과는 득표율로 결정된다. 문재인 대통령이 2위인 홍준표 후보보다 두 배가량의 득표율을 보였다. 하지만 양적 데이터만으로 민심을 온전히 반영하기에 분명 한계가 있다. 빅 데이터를 통해 각 후보들에게 매겨진 '가치평가'와 양적 데이터는 구분되어야 할 것 같다.

▶맞다. 빅 데이터 결과를 가치평가라고도 할 수 있다. 빅 데이터에도 계량적 지표는 있다. 가령, 밀도, 평균연결강도, 지배도, 집중도, 좁은 세상지수, 위계성 등이다. 이런 지표들을 더한다면 기존 여론조사를 잘 보정할 수 있을 것이다.

-빅 데이터는 개인이 남긴 행위다. 개인정보보호 혹은 윤리적 측면에서 연구의 딜레마가 있을 것 같다.

▶개인이 SNS 상에서 하는 활동의 많은 부분이 SNS 회사 약관에 의해 동의가 돼 있다. 이 가운데, API(application programming interface)와 같은 자동화된 방법을 통해 빅 데이터 연구자에게 자료가 넘어갈 수 있는 근거도 있다. 즉, 연구자가 SNS 이용자에게 책임을 지지 않아도 된다. 하지만 SNS 이용자의 특징을 더 알고 싶을 경우에는 해당 개인에게 개별적으로 동의서를 받아야 한다. 그럼에도 불구하고 인터넷 댓글 활용 같은 경우엔 윤리적 문제가 발생할 수 있다. 이때는 아이디를 익명 처리하는 등의 방법을 사용한다. 아직 빅 데이터는 산업적, 기술적 관점에서만 제도화가 이뤄져 있을 뿐 사회문화 윤리나 조사적 측면에서는 제도화가 안 돼 있다. 한국에서는 아직 인터넷 연구윤리에 대한 논의가 충분하지 않다.

-지금까지는 빅 데이터가 마케팅과 정치에 사용됐는데, 좀 더 선한 목적으로 사용될 방안이 있을까.

▶최근 재난안전 분야로 빅 데이터 연구를 많이 하고 있다. 어려움에 처한 사람을 도울 수 있는 방안이다. 예를 들면, 에볼라 바이러스가 서아프리카에서 창궐했는데 기존 데이터 상에서 이 사람들은 존재하지 않았다. 공식 통계에 잡혀 있지 않기 때문이다. 그러나 이 지역에도 구호물자를 제공해야 하고 이 지역에도 조치를 취해야 한다. 동일본 대지진이 일어났을 때 그 지역 관청에서 수행한 인구 변화의 패턴과 휴대전화 신호의 변화를 살펴봤었다. 그랬더니 공식 통계와 휴대전화 신호 사이에는 차이가 있었다. 그런데 공식 데이터에서 누락된 계층들, 소위 데이터 약자들이 피해를 보는 것이 재난 재해다. 또, 뉴욕에 허리케인 샌디가 왔을 때 사람들은 911에 전화를 했다. 한 시간에 2만 건의 전화가 몰렸는데 하루에 전화로 처리할 수 있는 양은 고작 3만 건이었다. 결국 사람들은 SNS에 메시지를 남겼다. SNS 빅 데이터를 통해 사람을 더 구할 수 있었다. 빅 데이터를 잘 활용한다면 이런 사람들에게 도움을 줄 수 있다. 다양한 빅 데이터 솔루션이 나오고 있고 나 역시 여기에 관심이 크다.

-국내에서도 빅 데이터를 재난 상황에 활용한 사례가 있었나.

▶경주에서 지진이 일어났을 때 트위터를 분석했다. 현재는 대구경북연구원의 재난안전센터와 긴밀하게 연구를 하고 있다. 경북에는 지진도 발생했고 원전도 있다. 앞으로 빅 데이터를 선한 목적으로 사용할 수 있을 것이다.

-빅 데이터를 연구하다 보면 진솔한 인간의 삶이 보일 것 같다. 빅 데이터 속에서 인간의 행복을 규정할 단서를 찾았는지 궁금하다.

▶어려운 질문이다. '공유'. 이것이 빅 데이터 안에서 찾은 행복의 키워드라고 생각한다. 인터넷이 가져다준 연결의 패러다임이 공유를 가능하게 했다. 남에게 베푸는 것에서 행복을 얻을 수 있는데 공유를 통해 경제적 이득까지 취할 수 있으니 더욱 행복할 것 같다.