4차 산업혁명, 빅데이터란 무엇인가?
4차 산업혁명, 빅데이터란 무엇인가?
  • 이상수 전 호남대 교수
  • 승인 2018.02.05 16:22
  • 댓글 0
이 기사를 공유합니다

기획 연재④ 빅데이터 처리는 미래를 밝힐 신기술이다

지금 우리 앞에 전개되고 있는 4차 산업혁명의 흐름을 되돌릴 수 없다. 이 혁명이 어디를 향해 갈지, 그 과정에서 우리 삶이 어떻게 바뀔지 궁금하다. 그러나 이런 흐름을 남의 일처럼 지켜볼 수만은 없다. 우리는 새로운 기술을 용기 있게 수용함으로써 경제적 번영과 우리들의 행복을 위하여 할 일이 무엇인가를 알 필요가 있다. 이번 집중기획은 4차 산업혁명의 주요 기술들을 중심으로 일반 시민들의 이해를 돕고자 마련되었다. 따라서 구체적인 내용을 알고 싶은 독자들께서는 별도의 참고서적을 참고하기 바란다.<편집자 주>

"데이터를 얻는 능력, 즉 데이터를 이해하는 능력, 처리하는 능력, 가치를 뽑아내는 능력, 시각화하는 능력, 전달하는 능력 등이야말로 앞으로 10년간 엄청나게 중요한 능력이 될 것이다" - Hal R. Varian, 구글의 수석 경제학자 -

빅데이터의 개념과 중요성

한 강연장에 황소 한 마리가 나타났다. 강연자가 이 황소의 무게를 청중들에게 맞춰보라고 제안했다. 과연 청중들이 이 황소의 무게를 맞출 수 있을 것인지 궁금했다. 연사는 모든 청중들에게 이 황소의 무게를 적어보라고 했다. 청중들은 작게는 100kg, 많게는 3톤 정도의 무게를 적어 냈다. 그렇지만 단 한 명도 이 황소의 무게를 맞추지 못했다. 하지만, 500여명의 정도의 청중들이 적어낸 무게를 합산하여 평균을 냈더니 그 무게는 813kg 였다. 그런데 이 황소의 무게는 814kg 였다. 실제 무게에서 1kg밖에 차이가 나지 않았다.”(세바시 817)

여기서 주목해야할 점은 작은 데이터가 모이면 가치가 될 수 있다는 좋은 사례를 제시했다는 것이다. 빅데이터가 아니라 스몰데이터라도 가치를 창줄해 낼 수 있다는 좋은 사례이다.

빅데이터는 기존 데이터보다 너무 방대하여 기존의 방법이나 도구로 수집저장분석 등이 어려운 정형 및 비정형 데이터들을 의미한다. 빅데이터(Big Data)크다라는 의미의 ‘Big’과 자료나 정보라는 의미의 ‘Data’가 만났으니 큰 데이터라고 단순 해석하기엔 크게 무리가 있다. 4차 산업혁명이나 IT 분야에서 빅데이터는 단순한 의미를 넘어서는 가치가 내포되어 있다. 인공지능과 웨어러블(wearable: 옷이나 시계, 안경처럼 자유롭게 몸에 착용하고 다닐 수 있는 기기), 사물인터넷과 자율주행 등 4차 산업혁명의 연결고리는 빅데이터와 함께 묶여있다고 해도 과언이 아니다.

하루가 멀다 하고 쌓이는 페이스북의 피드(feed: 사용자에게 자주 업데이트되는 콘텐츠를 제공하는 데 쓰이는 데이터 포맷)는 그 규모 자체가 워낙 방대하고 프로모션과 홍보 용도로도 다수 활용되고 있어 피드 생성과 동시에 또 다른 신규 피드로 인해 밑으로 묻히기 일쑤다. 최근 동영상 붐이 불면서 짧은 영상 클립 형태로 만들어지는 VOD 또한 수도 없이 공유되곤 한다. 데이터 형태에 관계없이 이렇게 쌓이는 수많은 데이터들을 빅데이터라고 한다.

세계적인 컨설팅 기관인 매켄지(Mckinsey)는 빅데이터를 기존 데이터베이스 관리도구의 데이터 수집, 저장, 관리, 분석하는 역량을 넘어서는 규모로서 그 정의는 주관적이며, 앞으로도 계속 변화될 것이라고 언급하고 있다. 어떤 그룹에서는 빅데이터를 테라바이트 이상의 데이터라고 정의하기도 하며, 대용량 데이터를 처리하는 아키텍처(architecture: 세부적으로 규정되지 않은 시스템 설계)라고 정의하기도 한다.

빅데이터의 특징

빅데이터를 바라보는 시각은 학자마다 다르지만, 빅데이터를 정의할 때 빼놓을 수 없는 특징들은 여섯 가지가 있다. 첫째, , 크기(Volume). 빅데이터 체계 안에서는 양 자체가 기존의 시스템으로 다루지 못할 만큼 많다. 일반 빅데이터라면 양이 많아야 한다. 둘째, 다양성(Variety)이다. 빅데이터는 다양한 형태의 데이터가 모여 형성 된다. 기록을 남기는 로그, 사진이나 비디오, SNS에 쓰는 짧은 글도 모두 빅데이터에 포함된다. 셋째, 속도(Velocity). 데이터가 만들어지는 속도와 처리되는 속도가 아주 빨라야 한다. 빅데이터는 스마트폰과 같은 기기를 통해 데이터가 아주 빠르게 생성되고 처리되는 특징을 가진다. 넷째, 정확성(Veracity)이다. 빅데이터를 제대로 활용하기 위해서는 데이터 사이의 불일치성, 불확실성, 근사값의 부정확성 등과 같이 모호한 데이터를 가려내서 신뢰할 수 있는 데이터를 확보해야 한다. 다섯째, 가치(Value). 빅데이터에는 너무 많은 데이터가 존재하고, 그 중에는 불필요한 데이터도 존재하기 때문에 유의미한 가치를 얻을 수 있는 데이터를 분별해야 한다. 여섯째, 가변성(Variability)이다. 빅데이터 환경에서는 데이터의 형태조차도 급격하게 변화한다. 빅데이터는 끊임없이 변화하는 체계이다.

이렇듯 빅데이터는 아직까지 온전히 정립된 개념이 아니다. 앞으로 빅데이터 분야가 더 발전하면 추가적인 특징이 더해질 수도 있다.

데이터의 크기와 유형

2011년 인류가 쏟아낸 데이터의 양은 무려 19,000억 기가바이트를 넘어섰다. 2012년에는 다시 50% 가까이 증가한 27,000억 기가바이트, 2020년에는 이마저도 초라해 보일 35조 기가바이트에 도달할 전망이다. 그러다 보니 10억을 뜻하는 단위 접두사 기가(Giga)’, 1조를 초과하는 테라(Tera)’도 데이터양을 표현하기에 모자랄 지경이 되었다. 따라서 최근 데이터의 양을 표현하는 데에는 페타(Peta), 엑사(Exa), 제타(Zeta), 요타(Yotta) 등의 접두사가 쓰이기도 한다.

데이터는 세 가지 유형을 나타낼 수 있다. 첫째는 정형데이터로 관계형 데이터베이스, 스프레드시트(spreadsheet) 등이 대표적이다. 예를 들면 표를 그려놓고 채워 넣는 형식의 데이터다. 정형데이터는 국가나 회사 같은 큰 조직에서 사용하는 경우가 많다. 정형데이터는 정렬과 분석을 쉽고 빠르게 할 수 있는 반면 정해진 틀 때문에 담을 수 있는 정보의 양이 한정된다는 약점이 있다.

둘째로 비정형데이터는 명확한 구조를 가지지 않고 데이터의 일관성이 없는 것이다. 일반텍스트 데이터나 이미지, 동영상, 음성 등과 같은 멀티미디어 데이터가 대표적인 비정형데이터다. SNS를 통해 만들어지는 데이터 역시 비정형데이터다. 이 비정형데이터에서 찾고자 하는 정보를 찾아내기 위해서는 꾀 많은 노력이 필요하다.

셋째로 반정형데이터는 정형데이터와 비정형데이터가 아닌 모든 데이터를 반정형데이터라고 할 수 있다. 다양한 데이터가 뒤섞여 있는 셈이다. 로그데이터 XML이나 HTML데이터 등이 대표적이다. 웹사이트에서 사용자가 클릭할 때 발생하는 클릭 스트림(streaming: 인터넷 상에서 음성이나 동영상 등을 실시간으로 재생하는 기술) 데이터도 반정형데이터다.

빅데이터의 핵심기술

빅데이터 기술은 데이터 획득-저장관리-분석-활용전반에 걸친 광범위한 기술을 모두 포괄하는 개념이다.

빅데이터 기술은 크게 기존기술과 새로운 기술로 구분된다. 전자는 빅데이터라는 현상이 주목을 받기 전부터 존재해 왔던 데이터관리언어 SQL(Structured Query Language: 구조화 질의어)와 관련된 기술들이다. 반면 후자는 빅데이터라는 용어가 등장하는데 결정적인 역할을 한 신규기술들로 좀더 유연하지만 복잡한 관리언어 NoSQL(SQL을 쓰지 않은 질의어)을 기반으로 한다.

오늘날 빅데이터 열풍이 이는 것은 데이터 서버의 성능이 업그레이드되어 종적 내지 횡적 확장이 이루어졌기 때문이다. 아울러 데이터 파일이 효율적인 분산관리가 이루어진 것으로 구글 파일시스템(GFS : Google File System)을 들 수 있다. 또한 맵리듀스(MapReduce)모델을 개발하여 공급사슬관리 오픈소스를 구현하는데 매우 단단한 기반을 제공해 준다. 그 대표주자로서 아파치 소프트웨어 재단(ASF)의 하둡(Hadoop)을 들 수 있다. 끝으로 데이터베이스 관리 시스템의 새로운 지평을 연 NoSQL 기술이 빅데이터 기술변화의 중요한 단면을 제시하고 있다.

빅데이터 역량구축을 위한 제언

빅데이터를 도입, 활용하기 위해 고려할 사항은 전략, 데이터관리, 거버넌스, 조직&노하우, 정보전달방법, 기술아키텍처와 인프라 등의 요소를 잘 반영하여야 한다. 이때 빅데이터 활용원칙은 네 가지로 제시할 수 있다(함유근채승범). 첫째, CEO가 적극적인 후원자가 되어 빅데이터 문화를 구축하여야 한다. 둘째, 정보관리를 실현하고 적절한 사람을 확보, 배치하여야 한다. 셋째, 적절한 과제를 선택해 실행경험을 축적하여야 한다. 끝으로 기술도 중요하지만 시작이 더욱 중요하다. 빅데이터 역량을 얻고 원활하게 활용하기까지의 길은 너무 멀고 고단할 수 있다. 먼 훗날을 내다보는 안목과 인내가 매우 절실하다.

빅데이터 플랫폼

플랫폼이란 서비스가 이뤄지는 유무형의 공간을 말한다. 플랫폼이란 어원은 평평한 땅의 토양(Plat+Form)’을 의미한다. 예를 들어 애플의 플랫폼, 구글의 플랫폼에서 그들이 제공하는 서비스가 이뤄진다. 빅데이터 플랫폼은 빅데이터 기술의 집합체이자 기술을 잘 사용할 수 있도록 준비된 환경이다. 기업들은 빅데이터 플랫폼을 사용하여 빅데이터를 수집, 저장, 처리 및 관리할 수 있다. 빅데이터 플랫폼은 빅데이터를 분석하거나 활용하는 데 필요한 필수 인프라(Infrastructure)인 셈이다. 빅데이터 플랫폼은 빅데이터라는 원석을 발굴하고, 보관, 가공하는 일련의 과정을 이음새 없이(Seamless) 통합적으로 제공해야 한다. 이러한 안정적 기반 위에서 처리된 데이터를 분석하고, 이를 다시 각종 업무에 맞게 가공하여 활용한다면 사용자가 원하는 가치를 정확하게 얻을 수 있을 것이다.

빅데이터는 경영을 어떻게 바꾸는가?

빅데이터로 달성할 수 있는 경영핵심은 크게 네 가지 단계를 거치게 된다(함유근채승범). 첫 번째 단계는 기존의 데이터 및 정보기술 활용수준을 진일보시켜 업무 생산성을 끌어 올리는 것으로 빅데이터 경영혁신의 시작점이라 할 수 있다. 두 번째 단계에서는 기업 활동 곳곳에 도사리고 있는 문제를 발견하여 해결한다. 이는 빅데이터에서 본격화되고 있는 기업의 사고와 판단 방식의 변화로 볼 수 있다. 세 번째 단계는 고객과 시장에 대한 더욱 정확한 정보를 추출해 경영자의 의사결정 능력을 향상시키는 수준에 도달하게 된다. 이러한 수준의 혁신이 이어지면 최종적으로 새로운 고객 가치를 창출할 수 있는 신사업으로 연계된다. 이는 데이터를 활용한 스마트화가 새로운 기업경영의 패러다임을 창출하는 단계로 이미 구글이나 페이스북이 그 가능성을 활발하게 보여주고 있다. 이러한 신사업이 역동적으로 출현하는 세상이 빅데이터가 궁극적으로 가져올 변화된 미래일 것이다.

빅데이터의 활용사례

빅데이터는 개인차원에서도, 조직, 국가 차원에서도 다양한 분야에 걸쳐 그 활용범위가 매우 넓다. IBM의 분석 솔루션이 적용된 지능형운영센터에는 교통, 전력, 홍수, 산사태 등의 자연재해와 수자원 등을 통합 관리할 수 있는 체계가 갖추어져 있다. IBM이 제공한 고해상도 날씨 예측 시스템은 날씨와 관련한 방대한 데이터를 분석해 폭우를 48시간 이전에 예측한다. 싱가포르는 차량의 기하급수적인 증가로 인한 교통체증을 줄이기 위해 교통량 예측 시스템을 도입하였다. 싱가포르는 이 시스템을 통해 85% 이상의 정확성으로 교통량을 측정하고 있다. 그럼 이렇게 쌓인 빅데이터가 어떻게 활용되고 있는가에 대한 몇 가지 사례를 소개하고자 한다.

구글(Google)은 데이터의 수 자체를 다다익선(多多益善)’으로 보고 있다. 키워드에 따른 검색 결과가 많으면 많을수록 사용자가 찾고자 하는 그리고 사용자에게 제공되는 정보의 퀄리티가 좋아질 수 있다는 진리를 있는 그대로 보여주고 있다. 실제 같은 키워드를 서로 다른 검색엔진을 통해 이용해 보면 충분히 알 수 있다.

미국의 아마존(Amazon)은 이와 유사한 기법을 마케팅 수단으로 활용하고 있다. 소비자의 소비 패턴을 데이터로 축적하고, 이 데이터를 분석해 소비자에게 구매 의사가 있을법한 아이템이나 쿠폰 등을 제공하는 경우다. 빅데이터에 쌓인 정보를 마케팅으로 활용하는 사례라 하겠다.

카카오가 뉴스 서비스에서 활용 중인 루빅스(RUBICS, Real-time User Behavior Interactive Content recommenderSystem) 역시 데이터에 기반한다. 본래 인공지능이 추천하는 뉴스 알고리즘이라 인공지능이 그 원천에 있을 것이라 생각할 수도 있지만, 이용자의 뉴스 소비 패턴을 파악하는 것이므로 데이터가 우선된다고 볼 수 있다.

이처럼 빅데이터는 검색, 커머스, 마케팅, 뉴스 등에 이르기까지 다양한 분야에서 활용되고 있다. 빅데이터는 다시 인공지능이나 사물인터넷, 헬스케어 등 4차 산업혁명에서 언급될 수 있는 산업 분야에 접목되어 우리 실생활과 직접적으로 연결되기도 한다.

SNS에서 생성되는 글들이나 내가 직접 작성한 나의 개인정보가 수많은 정보와 함께 어우러져 어딘가 노출이 되고 있다는 보안의 취약점을 감안해보면 역시 문제시될 수 있다. 특히나 구글의 검색 결과는 수많은 정보를 취하고 있어 나도 모르는 사이 내 모습이나 정보가 드러나기 마련이다. 문제를 삼으면 얼마든지 문제가 될 수 있다. 보안의 취약점은 4차 산업혁명 내에서 꾸준히 제기되고 있다. ‘초연결사회라고 할 만큼 연결되는 분야가 많기 때문이다.

빅데이터의 활용은 정보의 단순한 축적을 넘어 다양한 분야에서 활용되고 있지만 얼마나 신뢰가 가능한지, 얼마나 보안이 잘 되어 있는지, 그리고 어디까지 내 정보가 퍼져나갔는지 등에 대한 보다 철저한 시스템 구축이 필요하다.

빅데이터 전문가는 누가?

무엇보다 이와 같은 기술을 실현하기 위해서는 데이터의 사이언티스트(Data Scientist)의 확보가 필요하다. 이는 통계적 능력말고도 프로그래밍과 같은 컴퓨터 공학적 능력이 필요하다. 따라서 데이터 사이언티스트는 가설을 세우고, 그 가설에 맞게 검증하여야 한다. 아울러 분석결과물을 바탕으로 예측방안을 도출하는 과정에서는 통찰력과 창의력이 필요하다. 빅데이터를 분석해야 비로소 진정한 가치를 획득할 수 있는데, 이런 역할을 할 사람이 데이터 사이언티스트다. 전략 컨설팅 업체 맥킨지는 2018년 미국에 분석전문가가 4449만명 필요하지만, 관련학과 졸업생은 18만명으로 추산했다. 이 데이터로 보면 30만명 가량이 부족할 것이란 예측이다.

데이터 사이언티스트 역할을 담당할 빅데이터 전문가는 데이터를 통해 미래를 예측하고, 소비자에 대한 유의미한 정보를 분석해 맞춤형 정보를 주는 빅데이터 분석 전문가에 관련된 자격을 취득하려면 기본적으로 프로그래밍 언어, 서버, 네트워크, R언어, 하둡 등을 익혀야 하며, 다양한 통계분석 툴과 마케팅에 대한 지식이 필요하다. 민간 자격증으로는 한국경제신문사에서 주관한 경영 빅데이터 분석사(1,2)’가 있으며, 한국데이터베이스진흥원에서 주관한 데이터분석 준전문가(ADsp), 데이터 분석전문가(ADP) 등의 자격이 있다. 그 외에 사회조사분석사 등 다양한 자격이 존재하고 있다.

빅데이터의 비관론과 낙관론

우리의 일상생활을 누군가 감시한다면 좋아할 사람은 없을 것이다. 현재 우리나라엔 450만 대가 훨씬 넘은 CCTV가 설치되어 있는 것으로 추정된다. 스마트폰 역시 우리를 감시하는 수단이 될 수 있다. 그리고 온라인에서 하는 모든 행동도 역시 데이터로 남는다. 그렇기 때문에 많은 사람들은 빅데이터 기술이 인간을 감시하는 수단이 될 것이라고 말한다.

반면 빅데이터가 차세대의 경제 성장의 동력으로, 또 다양한 사회 문제의 해법이 될 수 있다고 믿는 사람들도 많다. 그렇지만 비관론자들은 빅데이터 분석도 폭넓은 데이터를 다루기 때문에 경우에 따라 원치 않은 사생활 침해가 일어날 가능성이 농후하다고 지적한다. 활용 가능한 데이터가 많아지는 만큼 원치 않은 사생활 침해가 일어날 확률이 높아질 수 있다는 말이다. 직접적인 현상과 결과가 나타나기 전까지는 그 누구도 빅데이터의 미래를 장담할 수 없다. 따라서 빅데이터가 위험하지 않다고 단언할 수 없는 만큼 긍정적 효과는 누리되 위험에 대비하는 자세가 필요하다. 빅데이터 활용과 더불어 인권에도 관심을 가질 필요가 있어 보이는 대목이다.

빅데이터의 미래

빅데이터는 앞으로 엄청난 가치를 창출할 수 있는 데이터 금맥으로 통한다. 빅데이터 활용을 통해 얻을 수 있는 경제적 이익이 큰 만큼 세계 여러 나라는 빅데이터 연구를 위해 과감한 투자를 아끼지 않고 있다. 우리도 빅데이터 시대를 위하여 미래를 대비한 철저한 준비가 이루어져야 할 것이다. 그렇게 하려면 데이터를 자유롭게 사고팔수 있는 공유할 수 있는 사회시스템이 갖추어져야 한다. 아울러 데이터를 분석해 낼 데이터 사이언티스트를 많이 육성시키는 일도 중요하다. 그리고 빅데이터 분석결과를 적절한 타이밍에 적용할 수 있어야 한다.

또한 빅데이터를 논할 경우 빠뜨려서는 안 되는 사항이 빅데이터 보안문제이다. 빅데이터 시대에는 개인 정보관리에 더 철저한 주의를 기울여야 한다. 특히 카드번호, 계좌번호 등 민감한 금융정보가 유출되지 않도록 세심한 주의가 필요하다. 어떤 데이터든 원칙을 세우고, 활용을 극대화하고, 부작용을 대비하는 일련의 시스템 중심에 바로 인간이 있다는 사실을 결코 잊어서는 안 될 것이다.

<참고자료>

강이든 지음(2015), 빅데이터, 빅브라더가 아닐까?. 서울:내인생의책.

미래전략정책연구원 지음(2016), 10년후 4차 산업혁명의 미래. 서울:일상이상.

백문서 기자 지음(2017), 빅브라더, 세상을 이해하는 새로운 방법. 서울:()레디셋 고.

윤형중 지음(2012), 이제는 빅데이터 시대. 서울:비즈북스.

함유근채승범 지음(2017), 빅데이터 경영을 바꾸다. 서울:삼성경제연구소.

http://namu.wiki/

http://ppss.kr/archives/149528

http://100.daum.net/encyclopedia/view/125XX53100001

https://www.youtube.com/watch?v=fUW-4prCZHw

다음 호에는 사물인터넷에 대해서 소개한다.


관련기사

댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.