예전에 말하는 빅 데이터는 3V (Volume, Velocity, Variety)였는데 최근에는 2가지가 추가되어 5V(Volume, Velocity, Variety, Veracity, Value)로 설명하는 추세이다.
이 글에서는 위에서 언급한 5가지에 관해 설명할 예정이다.
Volume : 볼륨은 데이터의 양과 관련되어있다. 주변을 둘러보면 매 초마다 막대한 양의 데이터가 생성되고있다. 핸드폰이나 데스크톱 센서 등에서 막대한 양의 데이터가 발생하는데, 예를 들면 Facebook, instagram, twitter, youtube, SMS message 등을 사용하면서 거대한 양의 데이터가 발생한다. 이러한 데이터는 계속해서 증가되고 있으며, 머지않아 terabtyes, zettabytes, Yottabytes 단위로 데이터가 측정될 것이다. 페이스북을 예로 들어보자. 페이스북에서는 하루에 10Yottabytes의 데이터가 발생한다. 매일 50억개의 좋아요가 발생하고, 대략 4000억개의 사진이 업로드 된다. 데이터 사이언티스트는 이렇게 발생하는 데이터의 양(volume)에 대해서 깜짝 놀랐다. 2008년에 발생한 데이터가 오늘 하루에 발생한 데이터와 동등하고, 머지않아 1시간에 발생한 데이터와 맞먹는 날이 올 것이다. 이 볼륨 측면만으로도 기존의 데이터베이스 dwarf에서 이러한 양의 데이터를 합리적이고 유용한 시간(time frame)에 저장하고 처리 할 수 있습니다. 그러나 대용량 데이터 스택을 사용하여 프로세스를 저장하고 대규모 데이터 뭉치(set)를 비용 효율적(cost-effective)으로 분산 배포 할 수 있습니다 , 그리고 신뢰할 수있는 효율적인 방법으로.
Velocity : Velocity는 데이터 생성 속도 또는 데이터가 생성되는 속도의 비율에 관해 언급을 할 것이다. 오늘날에 전 세계적으로 데이터의 양이 엄청나게 증가했다. 데이터가 빨리 생성되기 때문에 많은 양의 데이터를 로드할 수 있다. 소셜미디어를 예로 들면; 몇초만에 수많은 글이 올라오고 소문이 난다. 그리고 주식 중계자는 1000분의 1초 단위로 소셜미디어를 분석하여 주식을 구매 하거나 판매하는 측면에 많이 활용된다. 물건을 사기위해 신용카드로 결재, 사기치기 위한 결재 프로세스, 장부 등 이런 모든 것이드 몇초만에 발생한다. 빅 데이터는 엄청난 속도로 데이터를 분석 할 수 있는 힘을 우리에게 준다.
- Variety : 이번 섹션에서는 데이터가 구조화 될 수 없는 사실을 다룬다. 우리는 테이블에 깔끔하게 맞춰진 구조화 된 데이터 형식을 사용하는 데 익숙했다. 오늘날의 데이터의 80%이상은 구조화되어있지 않다(unstructured). 다양한 센서, 음성 녹음, 대화 내용(카카오톡, 페이스북 메신저 등)으로부터의 사진, 영상, 소셜미디어 업데이트의 데이터는 구조화 되어있지 않다. 빅데이터는 이렇게 구조화 되어있지 않은 데이터를 매우 구조적인 형식으로 처리하거나 저장한다. 실제로 이러한것은 다양성을 소멸시킨다.
Veracity : Veracity는 데이터의 정확성과 타당성에 관한 모든것이라 보면 된다. 데이터가 얼마나 정확하고 유용할까? 수백만개에서 무수히 셀 수 없는 양의 데이터는 적절하고, 정확하고, 관련성이 있어야 한다. 얼마나 이 데이터에 대해 신뢰성(trustworthy)이 있고, 데이터의 퀄리티가 좋은지에 관한 것이 veracity의 존재 이유이다. veracity가 있는 데이터의 예는 비표준 두문자어(acronyms) 또는 오타(typos)가 있는 페이스북 및 트위터 게시물을 포함하고 있다.
'옥탑방주인 > -D' 카테고리의 다른 글
전문연구요원 관련 메모 (0) | 2018.07.10 |
---|---|
NPM 패키지 버저닝 규칙 (0) | 2018.06.20 |
반응형 웹 참조 (1) | 2018.06.03 |
엑셀 틀 고정 (0) | 2018.05.14 |
전문연구요원...멘붕쓰 (0) | 2018.04.25 |