"우리는 연결된 세상에 살고 있습니다. 흩어져 있는 존재나 정보를 서로 엮어 보면 새로운 관점이 열립니다."
18일 오후 7시 매일신문사 8층 '매일 탑 리더스 아카데미'를 찾은 카이스트 정하웅 물리학과 석좌교수가 '복잡계 네트워크와 빅데이터(데이터 과학): 구글 신은 모든 것을 알고 있다'라는 주제로 강연했다. 그는 빅데이터 활용 사례를 소개하며, 각기 다른 정보(데이터)를 서로 엮었을 때 얻을 수 있는 각양각색의 효과를 설명했다.
세계적 검색 사이트인 구글은 빅데이터, 즉 방대한 데이터를 분석해 현상을 파악하는 능력을 지니고 있다. 스마트폰이 도입되면서 각 개인이 검색하는 키워드와 검색 시간, 검색 위치, 이용자의 성별과 나이 등을 조합해 특정 인물이나 특정 시기의 관심사를 파악할 수 있다는 것. 그 대표적인 서비스가 '구글 트렌드'다. 한 예로 다이어트에 대한 트렌드를 검색하면 매년 1월 1일 검색량이 급증했다가 연말까지 떨어지는 경향을 보인다.
정 교수는 "지난 제20대 총선을 하루 앞두고 대구 수성갑의 국회의원 후보였던 김부겸, 김문수 두 후보의 검색량을 비교했을 때 두 후보의 검색량이 최종 투표율과 비슷하게 나왔다"며 "검색 결과에 각 후보에 대한 부정적 데이터가 포함돼 있음을 감안하더라도 데이터가 매우 방대하다 보니 검색량을 통해 어떤 후보가 당선될지를 예측할 수도 있다"고 말했다.
정 교수는 복잡계의 특징을 이해해야 현상을 효과적으로 이해할 수 있다고 설명했다. 복잡계란 다양한 존재(점)들이 네트워크(선으로 연결된 관계)를 이루고 있는 세상을 이른다.
정 교수는 "인간관계를 비롯한 대부분의 네트워크는 소수의 허브를 향해 대부분의 점과 선이 집중되는 항공망 형태를 하고 있다. 휴렛팩커드는 이메일을 자주 주고받는 직원들을 파악한 뒤 중심이 되는 허브 인물과 그 주변 인물들을 한 공간에서 일하도록 해 업무 효율을 높였다. 구글과 네이버 등의 유명 웹사이트 역시 정보가 모이는 '허브'가 된다"며 "네트워크 속에서 정보가 집중되는 허브, 또 여러 개의 서로 다른 네트워크를 이어 주는 중간자가 복잡계에서 특히 중요한 기능을 한다"고 설명했다.
다만 그는 "데이터는 서로 다른 것 간의 상관관계를 보여주는 것이지, 원인에 따른 결과를 증명하는 것이 아니다"며 "데이터를 맹신할 것이 아니라 데이터에 따른 의미를 읽는 통찰이 더욱 중요하다"고 설명했다.
"데이터는 자주 변할 수 있는 만큼 1년 미만 단기간의 동향을 파악하는 데 쓰면 좋습니다. 그런 만큼 가능한 한 많은 데이터를 유기적으로 잘 연결해서 의미를 찾아낼 수만 있다면 새로운 것들을 볼 수 있을 겁니다."
댓글 많은 뉴스
문재인 "정치탄압"…뇌물죄 수사검사 공수처에 고발
홍준표, 정계은퇴 후 탈당까지…"정치 안한다, 내 역할 없어"
[매일문예광장] (詩) 그가 출장에서 돌아오는 날 / 박숙이
대법, 이재명 '선거법 위반' 파기환송…"골프발언, 허위사실공표"
세 번째 대권 도전마저…홍준표 정계 은퇴 선언, 향후 행보는?