Level 2
과학, 기술
목록

비문학 해설

《빅 데이터, 세상을 이해하는 새로운 방법》,

세상을 변화시키는 새로운 힘 ‘빅 데이터’

많은 사람들이 스마트폰을 쥐고 살아간다. 친구에게 문자를 보내고 사진을 찍어 전송한다. 이 같은 행위는 이제 개인 간의 소통에서 머무르지 않고 SNS(소셜 네트워크 서비스)를 통해 이른바 ‘사회’로 전송된다. 70억 명의 인구 가운데 10억 명 이상이 SNS로 연결돼 있다. 이들이 생산하는 데이터의 양은 실로 상상을 초월한다. 이 데이터를 포함한 엄청난 데이터들이 이제 세상을 바꾸기 시작했다. 도대체 빅 데이터란 무엇이며 어떻게 세상을 바꾸고 있는 것일까.
image

이런 상상을 해보자. 
한국의 고등학생을 이해하는 가장 좋은 방법은 무엇일까. 한국의 고등학생들은 입시에 대한 중압감을 얼마나 느끼고 있을까.
이런 얘기가 나오면 흔히 고등학생들의 사교육 현황이나 대학 진학상황 같은 데이터를 내놓고 이것을 다른 나라와 비교해 상대적 특징을 뽑아내려고 할 것이다. 혹은 설문조사나 적성검사 등으로 지금 고등학생들이 가장 바라는 직업이나 고민 등을 파악할 수도 있을 것이다. 또 정부 통계 등을 근거로 지역별 소득수준이나 학력수준 등을 고려할 수도 있을 것이다. 이러한 방법들은 그저 관습적이고 주관적 느낌으로 결론을 내리는 것보다는 훨씬 객관적이고 의미 있는 전통적인 데이터 분석 방법이다. 학문적으로 말하면 정량적이고 정형적인 데이터 분석 방법이다.

하지만 이 같은 방법들은 2013년 한국의 고등학생들이 어떤 언어를 사용하고 있는지, 어떤 제품을 사용하며 어떤 장소를 가장 좋아하고 무엇에 가장 큰 관심을 갖고 있는지 실시간으로 파악하는데 근본적인 한계를 갖는다. 만약 우리가 고등학생들이 사용하는 문자메시지나 카카오톡 메시지를 이른바 ‘자연어 처리기술’로 분석할 수 있다면 어떨까? 우리가 무의식적으로 매일 수천만 건 이상을 생산해내는 메시지는 어떤 의미를 가질까? 또 그들이 인터넷이나 SNS에 포스팅하는 문자와 사진 등을 분류해 분석할 수 있다면 그들을 얼마나 더 알 수 있을까?

사생활 침해 때문에 개인 간의 문자메시지를 수집해 분석하는 것은 법적으로 가능하지 않지만 만약 그것을 분석할 수 있다면 우리는 고등학생들이 자주 쓰는 욕부터 공부하는 시간과 장소, 가장 많이 먹는 음식과 노래, 영화, 게임 등을 알 수 있게 된다. 왕따와 학교폭력이 언제 어디서 어떤 방식으로 일어나는지도 알 수 있다. 어떤 의류 브랜드를 선호하는지, 어떤 핸드폰을 많이 쓰는지 나아가 부모나 선생님에 대해 어떤 생각을 갖고 있는지도 알 수 있을 것이다.

이것은 아주 논쟁적인 문제이며 생각의 지평을 넓히기 위해 함께 상상해 보자는 얘기다. 우리는 인터넷이나 소셜미디어, CCTV, 위성사진 등이 생산하는 한마디로 정의하기 어려운 거대한 실시간 데이터들을 비정형적 데이터라고 부른다. 지난 2년 간 이렇게 생산한 데이터의 양이 인류가 지금까지 생산해 온 데이터의 90퍼센트를 넘는다. 지난 한 해 동안 인류가 생산한 데이터의 양이 미국 의회도서관이 소장한 모든 데이터의 500만 배를 넘는다. 우리는 인류가 생산한 이 같은 정형적 데이터와 비정형적 데이터를 합친 엄청난 데이터를 ‘빅 데이터’라고 부른다.