빅 데이터는 전통적인 데이터베이스 시스템 처리 용량을 넘어서는 데이터다. 빅 데이터는 아주 크고, 매우 빨리 변하며, 기존 데이터베이스 아키텍처의 구조에 맞지 않는다. 이 데이터에서 가치를 얻으려면, 그것을 처리할 다른 방법을 택해야 한다.
2012년 인기 있는 IT 유행어(buzzword)인 빅 데이터는 가능한 것(viable)이 되었는데, 이는 비용 대비 효율 높은 접근 방법이 나타나 대량 데이터의 부피, 속도, 그리고 가변성을 잘 다루었기 때문이다. 빅 데이터 안에는 이전에는 데이터에서의 추출에 필요한 작업량 때문에 숨어 있던 가치 있는 패턴 및 정보가 존재한다. 월마트나 구글 같은 선도기업에는 얼마 전부터 이러한 능력이 있었지만, 엄청난 비용이 들었다. 오늘날의 일반적인 하드웨어, 클라우드 아키텍처와 오픈 소스 소프트웨어는 리소스가 다소 부족한 회사도 빅 데이터 처리를 고려할 수 있게 했다. 빅 데이터 처리는 클라우드에서 값싸게 서버 시간을 빌릴 수 있는 차고(garage)에서 시작하는 작은 스타트업 회사에서도 충분히 가능한 일이다.
빅 데이터는 어떻게 생겼는가?
"클라우드"가 다양한 기술을 포함한 용어인 것처럼, 포괄적 용어 "빅 데이터"는 아주 모호할 수 있다. 빅 데이터 시스템의 입력 데이터는 소셜 네트워크, 웹 서버 로그, 차량 흐름 센서, 인공위성 이미지, 방송 음성 스트림, 은행 거래 내역, 락 음악 MP3, 웹 페이지 콘텐츠, 정부 스캔 문서, GPS 경로 기록, 자동차 원격 측정치, 금융 시장 데이터로부터 쏟아질 수 있고, 이 목록은 끝이 없다. 이들이 정말 모두 같은가?