이런 상상을 해보자.
한국의 고등학생을 이해하는 가장 좋은 방법은 무엇일까. 한국의 고등학생들은 입시에 대한 중압감을 얼마나 느끼고 있을까.
이런 얘기가 나오면 흔히 고등학생들의 사교육 현황이나 대학 진학상황 같은 데이터를 내놓고 이것을 다른 나라와 비교해 상대적 특징을 뽑아내려고 할 것이다. 혹은 설문조사나 적성검사 등으로 지금 고등학생들이 가장 바라는 직업이나 고민 등을 파악할 수도 있을 것이다. 또 정부 통계 등을 근거로 지역별 소득수준이나 학력수준 등을 고려할 수도 있을 것이다. 이러한 방법들은 그저 관습적이고 주관적 느낌으로 결론을 내리는 것보다는 훨씬 객관적이고 의미 있는 전통적인 데이터 분석 방법이다. 학문적으로 말하면 정량적이고 정형적인 데이터 분석 방법이다.
하지만 이 같은 방법들은 2013년 한국의 고등학생들이 어떤 언어를 사용하고 있는지, 어떤 제품을 사용하며 어떤 장소를 가장 좋아하고 무엇에 가장 큰 관심을 갖고 있는지 실시간으로 파악하는데 근본적인 한계를 갖는다. 만약 우리가 고등학생들이 사용하는 문자메시지나 카카오톡 메시지를 이른바 ‘자연어 처리기술’로 분석할 수 있다면 어떨까? 우리가 무의식적으로 매일 수천만 건 이상을 생산해내는 메시지는 어떤 의미를 가질까? 또 그들이 인터넷이나 SNS에 포스팅하는 문자와 사진 등을 분류해 분석할 수 있다면 그들을 얼마나 더 알 수 있을까?
사생활 침해 때문에 개인 간의 문자메시지를 수집해 분석하는 것은 법적으로 가능하지 않지만 만약 그것을 분석할 수 있다면 우리는 고등학생들이 자주 쓰는 욕부터 공부하는 시간과 장소, 가장 많이 먹는 음식과 노래, 영화, 게임 등을 알 수 있게 된다. 왕따와 학교폭력이 언제 어디서 어떤 방식으로 일어나는지도 알 수 있다. 어떤 의류 브랜드를 선호하는지, 어떤 핸드폰을 많이 쓰는지 나아가 부모나 선생님에 대해 어떤 생각을 갖고 있는지도 알 수 있을 것이다.
이것은 아주 논쟁적인 문제이며 생각의 지평을 넓히기 위해 함께 상상해 보자는 얘기다. 우리는 인터넷이나 소셜미디어, CCTV, 위성사진 등이 생산하는 한마디로 정의하기 어려운 거대한 실시간 데이터들을 비정형적 데이터라고 부른다. 지난 2년 간 이렇게 생산한 데이터의 양이 인류가 지금까지 생산해 온 데이터의 90퍼센트를 넘는다. 지난 한 해 동안 인류가 생산한 데이터의 양이 미국 의회도서관이 소장한 모든 데이터의 500만 배를 넘는다. 우리는 인류가 생산한 이 같은 정형적 데이터와 비정형적 데이터를 합친 엄청난 데이터를 ‘빅 데이터’라고 부른다.