빅데이터를 한마디로 정의하기는 어렵다. 한 가지 말할 수 있는 것은, ‘기존의 관리나 분석체계로는 감당할 수 없을 정도로 거대한(Big) 데이터의 집합’이라는 것. 하지만 그렇다고 빅데이터를 말 그대로 ‘어마어마하게 많은 데이터’라는 식으로 본다면 빅데이터의 가치와 본질을 놓칠 수 있다. 빅데이터는, 우리에게 익숙한 고정형 데이터주소, 주민등록번호, 학력, 재산, 병력, 범죄기록, 의료기록 등, 반고정형 데이터 CCTV를 통한 행동 정보, 신용카드 사용내역, 인터넷 활용시간, 접속 사이트 등은 물론, 페이스북, 트위터 등 SNS에 올라온 이미지, 사진, 영상 같은 비정형 데이터까지 모두 포괄하고 있다.
빅데이터라는 단어를 처음으로 정의한 사람은 미국 인디애나주립대 조핸 볼런 교수다. 그는 2008년 트위터에 주목했다. 자신의 업무, 일상, 생각, 감정 등 다양하게 올라온 글을 읽던 볼런 교수는 이 데이터를 모아 분석하면 하나의 큰 흐름을 뽑아낼 수 있을 것이라고 생각했다. 과연 2008년 상반기 트위터를 분석한 결과, 이용자들의 집단적인 기분 변화가 전국적인 행사들과 일치한다는 사실을 알아냈다. 행복지수가 높아지면 추수감사절이 다가오고 있었고 불안지수가 높아지면 꼭 다우지수가 하락한다는 것을 알아낸 것.
그는 이 연구를 통해 빅데이터라는 단어를 정의, 일정한 알고리즘을 만들어냈다. 개인의 취향, 사고, 행동 패턴뿐 아니라 감정과 분위기, 스스로도 인지하지 못하는 습관이나 버릇까지 빅데이터는 수집, 분석이 가능하다. 현재 빅데이터는 다양한 가치를 만들어내는 원천으로, 미래의 경쟁력을 좌우하는 21세기의 원유로 불린다.