매일신문

매일 탑 리더스 아카데미 카이스트 정하웅 석좌교수 강연

"빅데이터 잘 분석하면 국회의원 후보 당선도 예측 가능"

"우리는 연결된 세상에 살고 있습니다. 흩어져 있는 존재나 정보를 서로 엮어 보면 새로운 관점이 열립니다."

18일 오후 7시 매일신문사 8층 '매일 탑 리더스 아카데미'를 찾은 카이스트 정하웅 물리학과 석좌교수가 '복잡계 네트워크와 빅데이터(데이터 과학): 구글 신은 모든 것을 알고 있다'라는 주제로 강연했다. 그는 빅데이터 활용 사례를 소개하며, 각기 다른 정보(데이터)를 서로 엮었을 때 얻을 수 있는 각양각색의 효과를 설명했다.

세계적 검색 사이트인 구글은 빅데이터, 즉 방대한 데이터를 분석해 현상을 파악하는 능력을 지니고 있다. 스마트폰이 도입되면서 각 개인이 검색하는 키워드와 검색 시간, 검색 위치, 이용자의 성별과 나이 등을 조합해 특정 인물이나 특정 시기의 관심사를 파악할 수 있다는 것. 그 대표적인 서비스가 '구글 트렌드'다. 한 예로 다이어트에 대한 트렌드를 검색하면 매년 1월 1일 검색량이 급증했다가 연말까지 떨어지는 경향을 보인다.

정 교수는 "지난 제20대 총선을 하루 앞두고 대구 수성갑의 국회의원 후보였던 김부겸, 김문수 두 후보의 검색량을 비교했을 때 두 후보의 검색량이 최종 투표율과 비슷하게 나왔다"며 "검색 결과에 각 후보에 대한 부정적 데이터가 포함돼 있음을 감안하더라도 데이터가 매우 방대하다 보니 검색량을 통해 어떤 후보가 당선될지를 예측할 수도 있다"고 말했다.

정 교수는 복잡계의 특징을 이해해야 현상을 효과적으로 이해할 수 있다고 설명했다. 복잡계란 다양한 존재(점)들이 네트워크(선으로 연결된 관계)를 이루고 있는 세상을 이른다.

정 교수는 "인간관계를 비롯한 대부분의 네트워크는 소수의 허브를 향해 대부분의 점과 선이 집중되는 항공망 형태를 하고 있다. 휴렛팩커드는 이메일을 자주 주고받는 직원들을 파악한 뒤 중심이 되는 허브 인물과 그 주변 인물들을 한 공간에서 일하도록 해 업무 효율을 높였다. 구글과 네이버 등의 유명 웹사이트 역시 정보가 모이는 '허브'가 된다"며 "네트워크 속에서 정보가 집중되는 허브, 또 여러 개의 서로 다른 네트워크를 이어 주는 중간자가 복잡계에서 특히 중요한 기능을 한다"고 설명했다.

다만 그는 "데이터는 서로 다른 것 간의 상관관계를 보여주는 것이지, 원인에 따른 결과를 증명하는 것이 아니다"며 "데이터를 맹신할 것이 아니라 데이터에 따른 의미를 읽는 통찰이 더욱 중요하다"고 설명했다.

"데이터는 자주 변할 수 있는 만큼 1년 미만 단기간의 동향을 파악하는 데 쓰면 좋습니다. 그런 만큼 가능한 한 많은 데이터를 유기적으로 잘 연결해서 의미를 찾아낼 수만 있다면 새로운 것들을 볼 수 있을 겁니다."

최신 기사

많이 본 뉴스

일간
주간
월간