빅데이터란 무엇을 말하는 걸까? 알기 쉽게 정의하기는 어렵지만 한 가지 말할 수 있는 것은, ‘기존의 관리나 분석체계로는 감당할 수 없을 정도로 거대한Big 데이터의 집합’이라고 할 수 있다. 그렇다고 빅데이터가 말 그대로 ‘어마어마하게 많은 데이터’라고만 이해한다면 빅데이터의 가치와 본질을 놓칠 수 있다. 빅데이터는, 양(volume)이 매우 많고, 증가 속도(velocity)가 빠르고, 종류(variety)가 매우 다양한 데이터를 말한다. 이를 3V라고도 한다.
빅데이터라는 단어를 처음으로 정의한 사람은 미국 인디애나주립대 조핸 볼런 교수다. 그는 2008년 트위터에 주목했다. 자신의 업무, 일상, 생각, 감정 등 다양하게 올라온 글을 읽던 볼런 교수는 이 데이터를 모아 분석하면 하나의 큰 흐름을 뽑아낼 수 있을 것이라고 생각했다. 과연 2008년 상반기 트위터를 분석한 결과, 이용자들의 집단적인 기분변화가 전국적인 행사들과 일치한다는 사실을 알아냈다. 행복지수가 높아지면 추수감사절이 다가오고 있었고 불안지수가 높아지면 꼭 다우지수가 하락한다는 것을 알아낸 것. 그는 이 연구를 통해 빅데이터라는 단어를 정의, 일정한 알고리즘을 만들어냈다. 개인의 취향, 사고, 행동패턴뿐 아니라 감정과 분위기, 스스로도 인지하지 못하는 습관이나 버릇까지 빅데이터는 수집, 분석이 가능하다.
빅데이터는, 우리에게 익숙한 고정형 데이터(주소, 주민번호, 학력, 재산, 병력, 범죄기록, 의료기록 등), 반고정형 데이터(CCTV를 통한 행동 정보, 신용카드 사용내역, 인터넷 활용시간, 접속 사이트 등)는 물론, 페이스북, 트위터 등 SNS에 올라온 이미지, 사진, 영상 같은 비정형 데이터까지 모두 포괄하고 있다.
빅데이터 세상에서는, 인터넷 검색을 하고, 뉴스를 클릭하고, 인스타그램에 좋아요를 누르고, 교통카드를 찍고, 동네 중국집에 전화를 하고, 연습장과 축구공을 주문하고. 이 모든 사소하고 작은 행동들이 의미 있는 데이터로 남는다. 그 데이터는 어디에 어떻게 쓰이는 걸까? 파편처럼 흩어져 있는 데이터를 모으면 하나의 지도를 그릴 수 있다. 어떤 것이 유행인지, 사람들이 무엇을 찾는지, 숨겨진 욕구는 무엇인지 그야말로 세상을 이해하는 지름길로 안내하는 지도다. 빅데이터가 어떻게 이용되지는 살펴보았다.