빅데이터 관련 뉴스 트렌드 분석 - 2. 키워드 분석으로 본 데이터와 빅데이터의 인식 차이

2019. 11. 12. 11:20데이터 분석/빅데이터 키워드 뉴스 트렌드 분석

728x90

 

  <이전 글 먼저 보기>  

 

 

 

'빅데이터' 키워드 뉴스 트렌드 분석 - 1. 다른 ICT기술과 비교 및 프로세스 트렌드

Introduction ‘빅데이터’란 단어가 주목받은지도 어느덧 6-7년이 되어갑니다. 대용량, 분산처리, 비정형 데이터로 주목받고 서울시 심야버스 노선 데이터 분석으로 대중에 널리 알려졌으며, 공공과..

ellun.tistory.com

 

 

4. 빅데이터 특성(5V)에 대한 빈도 분석


 

이번에는 데이터 및 빅데이터 뉴스기사에 관련 단어들이 얼마나 많이 등장하는 지 추이를 살펴봅니다. 먼저 빅데이터의 특성으로 많이 정의되었던 5V, Volume(용량,크기), Velocity(성능,속도), Variety(다양), Veracity(신뢰), Value(가치), 다섯 가지 단어의 등장 빈도와 비중을 보면서, 빅데이터와 데이터에 대한 인식의 차이 및 변화를 알아봅니다.

 

 

 

먼저 Volume을 의미하는 크기 또는 용량 키워드가 들어가는 기사의 빈도와 전체 기사 대비 비율을 각각 계산하였습니다. 빅데이터는 25~80건 빈도 수를 나타냈으며, 이는 전체 빅데이터 키워드가 들어간 기사의 2.8%~10% 수준입니다. 반면 데이터에 대한 크기,용량 키워드 등장 비율은 5.0%~12% 수준으로 빅데이터보다 평균적으로 2~3% 높았습니다. 둘 다 시간에 따라 점진적으로 감소하는 추세로 크기와 용량은 점점 데이터 및 빅데이터의 주요 관심대상이 되지 않고 있음을 알 수 있습니다.

 

 

 

다음으로 Velocity를 뜻하는 속도 키워드의 추이를 비교한 결과, 빅데이터의 경우 41건에서 197건으로 증가하였으나, 비중은 11.6%에서 7.3%로 감소하여 빅데이터 전체 기사 증가속도에 미치지 못하는 것으로 나타났습니다. 한편 데이터에서 속도 키워드 비중은 18.1%에서 10.7%로 빅데이터보다 3~5% 정도 높은 비율을 형성하면서 비슷한 추이로 하락하였습니다.

 

 

 

속도와 비슷한 뉘앙스를 가진 성능 키워드로 비교한 결과 빅데이터는 29~100건의 분포를 보였으며, 비중은 역시 8.2%에서 3.0%로 하락하였습니다. 데이터의 경우에는 6.1%에서 4.8%로 하락하여 빅데이터보다는 하락폭이 적은 것으로 보입니다.

 

 

 

다양(Variety) 키워드에 대한 빈도 분석 결과 앞선 키워드와는 다른 추이를 나타냈는데요.

빅데이터의 경우 164~1,000건의 분포를 나타냈으며, 비중으로는 46.6%에서 36.4%로 하락하긴 했지만 높은 비중을 유지하고 있었습니다. 반면 데이터에 대한 비중은 28.9%에서 32.5%로 소폭 상승하여 ‘13년 초에는 빅데이터와 데이터 사이에 나타나는 비중의 차이가 컸으나 현재는 거의 차이가 없음을 알 수 있습니다.

 

 

Veracity를 뜻하는 신뢰 키워드의 빈도 분석결과, 빅데이터의 경우 10~150건의 분포를 나타냈으며, 비중으로는 2.6%에서 3.0%로 미미하게 상승하였습니다. 데이터의 경우 앞선 키워드와 달리 빅데이터와 거의 동일한 비중과 추이를 나타내며 엎치락뒤치락하고 있습니다.

 

 

 

마지막으로 가치에 대한 빈도 분석 결과는 다양키워드와 비슷한 추이를 보이고 있습니다. 빅데이터 기사에 대한 비중은 19.9%에서 12.9%로 하락했으나, 데이터 기사에 대한 비중은 9.0%에서 11.1%로 소폭 상승하여 ‘13년에 현격한 차이를 보였던 것과 대비하여 현재는 구별없이 비슷한 비율로 나타나는 것으로 보입니다.

 

 

 

 

5. 비즈니스 키워드에 대한 빈도 분석


 

이번에는 위와 동일한 방법론으로 비즈니스와 관련된 키워드에 대한 빅데이터와 데이터 기사 내 등장 빈도 및 비율을 확인해보았습니다. 분석 대상이 된 키워드는 비즈니스, 효율, 관리, 조직, 보안, 인력(인재,전문가) 등 여섯 가지입니다.

 

 

 

먼저 비즈니스 키워드에 대한 분석 결과, 빅데이터는 100~299건으로 약 3배 증가하였으나, 빅데이터 기사 내 비중으로 보면 28.4%에서 11.0%으로 하락한 상태입니다. 반면 데이터는 비즈니스 단어가 함께 사용된 기사가 ‘13년 초 8.5%에서 7.2%로 횡보하고 있습니다. 전체적으로 빅데이터가 데이터보다 3~4% 정도 더 높은 비중으로 나타나고 있어나 ’13~‘16 시기 만큼의 두드러진 차이를 보이고 있지 않습니다.

 

 

 

효율 키워드에 대한 분석 결과, 빅데이터의 경우 47건에서 261건으로 상승하였으나, 비중으로는 13.4%에서 9.6%으로 다소 하락한 것으로 나타났습니다. 데이터의 경우 8.1%에서 9.0%으로 횡보하여 현재는 효율이라는 단어가 빅데이터와 데이터 사이에서 구별없이 사용되는 것으로 보입니다.

 

 

 

관리 키워드는 빅데이터의 경우 116건에서 649건으로 6배 증가하였으며, 비중으로는 33.0%에서 23.9%10%p 하락한 것으로 나타났습니다. 반면 데이터는 ‘13년부터 현재까지 20% 초반에서 등락없이 비슷한 비율로 나타나고 있으며, 효율과 마찬가지로 빅데이터와 데이터가 비슷한 비중을 보입니다.

 

 

 

조직 키워드는 다른 키워드에 비해 널뛰기가 심하게 나타난 것이 특징인데, 전체적으로는 41건에서 185건으로 증가하였고, 비율로는 11.6%6.8%5%p 가량 하락하였습니다. 빅데이터 초기 조직구성 및 정비가 많은 기업들에서 이슈사항이였는데, 현재는 어느 정도 안정기에 접어든 것으로 보입니다. 데이터의 경우 6.9%에서 5.4%로 횡보세여서 조직이라는 키워드가 데이터에서는 시류에 그다지 영향을 받지 않은 것으로 보입니다.

 

 

마지막으로 보안 키워드의 빅데이터 내 빈도는 65건에서 200건 사이의 분포를 보이고 있으며, 비중으로는 18.5%에서 6.5%로 하락하였습니다. 데이터의 경우에도 ‘13년도 극 초기를 제외하고는 빅데이터와 비슷한 추이를 나타내며 이동하고 있습니다.

 

 

 

마지막으로 인력,인재,전문가 키워드에 대한 빈도수를 측정했습니다. 빈도수로 보면 ‘13년에는 데이터가 빅데이터보다 더 높으나 현재는 비슷한 수준으로 수렴하였으며, 반면 비율로는 ’13에는 빅데이터가 데이터보다 20% 가까이 더 높았으나 현재는 7~10% 수준으로 좁혀졌습니다. 그러나 여전히 인적 자원과 관련된 키워드는 빅데이터와 함께 사용되는 비중이 다소 높은 것으로 보입니다.

 

 

 

 

6. 사회 및 인식 관련 키워드에 대한 빈도 분석


 

다음으로는 역시 동일한 방법으로 거시적 경제와 산업, 그리고 빅데이터에 대한 인식을 나타내는 단어인 혁신, 창조·창출, 성장·확대, 발전 등 총 6가지 키워드의 데이터 및 빅데이터 관련 기사 내에서 등장하는 빈도와 비율을 조사하였습니다. 앞선 키워드 비교와 동일한 방법론을 적용하였기 때문에 이번에는 간략하게 정리하고 넘어가고자 합니다.

그리고 추가로 빅데이터 관련 기사에서 등장하는 법·제도 및 규제에 대한 빈도를 비교하여 빅데이터 분야의 법, 제도에 대한 인식이 어떻게 변화하는지 알아봅니다.

 

경제 키워드의 경우 전 기간 빅데이터가 데이터의 경우보다 3~8% 정도 높은 비율로 나타났으나 최근으로 올수록 차이가 적어지는 것으로 보입니다. 그리고 둘 다 공통적으로 ‘13년부터 ’18년까지 꾸준히 하락하다가 ‘19년에 다시 소폭 반등하였습니다.

 

산업 키워드는 ‘13년 초에는 빅데이터가 데이터보다 20%p 넘게 높았으나 현재는 빅데이터의 경우 비슷한 비율인데 반해, 데이터는 꾸준히 상승하여 10%p 수준으로 차이를 좁혔습니다.

 

 

 

혁신 키워드는 이례적으로 빅데이터와 데이터 모두 등장 비율이 가파르게 우상향한 것으로 나타났습니다. 빅데이터가 데이터의 경우보다 8~10% 정도 높은 비율로 나타났으며, ‘13년 초 10%, 18%대였다가 현재는 26%, 33%2배 정도의 성장을 보였습니다.

 

창조·창출 키워드의 경우(창조경제가 들어간 기사는 제외) 역시 빅데이터가 데이터보다 전반적으로 비율이 높았으나, 데이터는 완만한 상승세, 빅데이터는 점진적인 하락세에 따라 ‘13년 초 13%p 차이에서 현재는 4.8%p 수준으로 많이 좁혀졌습니다.

 

 

 

 

성장·확대 키워드는 ‘13년도 극 초기 빅데이터의 경우를 제외하고는 약간의 상승기조를 보였습니다.

 

발전 키워드는 빅데이터가 18~20%에서 횡보하는 동안 데이터는 11.7%에서 14.8%로 소폭 상승하여 등장하는 비중의 차이가 다소 좁아졌음을 알 수 있습니다.

 

 

※  법, 제도 관련 키워드 비교 분석


 

 

이번에는 빅데이터 키워드를 가진 기사 내에서 법,제도 또는 규제 키워드가 나오는 빈도와 비율을 조사해보았습니다. 중립적인 의미로 사용되는 법,제도 키워드에 대한 기사 발생 비율은 ‘13년부터 ’19년 현재까지 별 다른 추세없이 10~15% 선을 왔다갔다 하는 것으로 나온 반면, 다소 부정적인 의미로 사용되는 규제 키워드에 대한 비율은 ‘13년 초 5.7%에서 현재는 12.6%로 두 배 이상 증가하여 법,제도와 거의 비슷한 비율로 나타난 것으로 확인되었습니다. 이것은 빅데이터 분야에서 개인정보 3(개인정보보호법, 정보통신망법, 신용정보법)으로 대표되는 데이터 관련 법에 대한 인식이 시간이 갈수록 나빠지고 있고, 법 개정이 조속히 이루어져야하는 여론이 높아지고 있음을 보여줍니다.

 

 

 

 

7. 키워드 분석 종합


 

 

이번에는 하나씩 키워드별로 다뤘던 추이를 종합해서 정리해보고자 합니다.

빅데이터 관련 뉴스 기사 중 특정 키워드가 들어간 기사들의 비중의 변화를 한눈에 알아보기 위해 ‘13~’14년 평균과 ‘18~’19년 평균을 각각 내어 비교해보았습니다.

 

‘13년 기준으로 성장·확대, 다양, 경제, 산업 등은 30%가 넘는 비중을 차지하는 반면, 성능, 크기·용량, 신뢰 등의 요소는 5% 이하로 나타났습니다. 그리고 대부분의 키워드가 ’13~‘14년 대비 ’18~‘19년에 비중이 하락한 가운데, 성장·확대, 산업, 혁신 키워드만이 눈에 띄는 상승을 보였습니다. 이는 빅데이터가 여전히 산업, 성장, 혁신의 이미지를 갖고 있는 것으로 볼 수 있겠습니다.

 

 

 

한편 이번에는 빅데이터에 대한 평균과 데이터에 대한 평균의 차이를 비교하여 어떤 키워드가 상대적으로 데이터 또는 빅데이터에서 더 자주 등장하는지 살펴보았습니다.

 

18개 키워드 중 빅데이터보다 데이터가 더 높은 비중을 차지했던 키워드는 신뢰, 성능, 크기·용량, 속도 단 네 가지로 이것은 모두 데이터의 특성을 나타내는 5V 구성요소라는 공통점이 있습니다. 반면 빅데이터 내에서 등장 비율이 높은 키워드는 산업, 인력·인재·전문가, 성장·확대, 창조·창출, 비즈니스 등 비즈니스 및 산업과 관련된 것으로 나타났습니다.

하지만 원래부터 데이터 내에서 등장 비율이 높았던 4개 키워드를 제외하고 나머지는 ‘13~’14년의 차이와 비교했을 때 ‘18~’19년 평균의 차이가 두드러지게 좁아졌음을 알 수 있습니다. 이것은 빅데이터가 데이터와 비교해서 뚜렷하게 강조했던 키워드들이 현재는 데이터에서도 그만큼 더 많이 사용하여 그 차별성이 희미해져 가고 있음을 보여줍니다.

단 한 가지 예외를 보이는 키워드가 있는데, 혁신의 경우 유일하게 ‘18~’19년에 빅데이터 내에서 더 뚜렷하게 사용되고 있는 것으로 나타났습니다. 이것은 데이터보다는 빅데이터가 혁신에 더 잘 호응하는 주제로 인식됨을 의미한다고 볼 수 있겠습니다.

 

 

 

 

Conclusion


 

지금까지 빅데이터를 중심으로 관련 기술, 프로세스 그리고 빅데이터의 특성 및 각종 사회·경제·인식과 관련된 키워드의 뉴스 기사 등장 빈도의 추이를 살펴보았습니다.

 

앞에서 보여드렸던 많은 그래프들로부터 몇 가지 사실을 추리해볼 수 있었습니다.

 

 

위의 그래프는 맨 처음 보여드렸던 데이터와 빅데이터 키워드가 들어간 뉴스 기사 빈도를 나타낸 것입니다. 여기에 10개 구간에 대한 이동평균 추세선을 추가한 것인데요. 앞에서도 설명드렸듯이 ‘17년 상반기까지는 빅데이터가 데이터보다 더 높은 상승세를 보이고 있었는데, ’17년 하반기부터 추세가 완전히 뒤바뀌어서 빅데이터는 상승세가 꺾이고 데이터가 마치 빅데이터의 상승세를 그대로 이어받은 것처럼 상승폭이 가팔라졌습니다. 만약 데이터와 빅데이터의 상승폭이 이전처럼 유지되었다면 아마 ‘18년 상반기에 완벽하게 크로스하지 않았을까 싶습니다. ’17년 하반기가 데이터와 빅데이터에 대한 트렌드와 인식 변화가 생긴 변곡점이라고 볼 수 잇습니다.

 

그리고 그 이유는 7장에서 키워드별 분석 결과를 종합한 차트를 통해 유추할 수 있습니다.

기존의 데이터는 성능, 크기, 속도와 같은 사회적으로 잘 이슈가 되지 않을 기술적인 측면에 치중한 키워드였다면 빅데이터는 산업, 인재, 창조, 혁신, 발전 등 긍정적인 사회 경제적 이슈를 포괄할 수 있는 키워드였기 때문에 트렌디한 이미지를 갖고 대중에게로 널리 퍼질 수 있었습니다. 하지만 빅데이터가 가지는 근본적인 한계는 인공지능, IoT, 클라우드, 블록체인 등 다른 단어들이 명확하게 그 의미나 단어 형태적으로 구분되는 것과 달리 데이터라는 단어에서 파생되었다는 점입니다. 따라서 빅데이터가 다양한 의미로 활용이 지속되는 동안 데이터 또한 빅데이터가 차별화한 의미를 속속 흡수하면서 점점 둘 사이의 구분이 희미해져갔고, 결국에는 빅데이터가 갖는 차별화된 어감을 데이터와 파이를 나눠갖게 되면서 빅데이터의 상승폭은 둔화되고, 좀 더 일반적으로 사용되던 데이터가 빅데이터의 의미를 포괄하면서 빅데이터의 상승세를 물려받았다고 보는 것이 타당한 해석이라 생각됩니다.

 

 

이번 빅데이터 키워드에 대한 뉴스 기사 분석으로 도출된 가장 큰 인사이트는 이점이라 생각되며, 그 밖의 내용은 아래와 같이 정리할 수 있을 것 같습니다.

 

 1.  빅데이터는 주요 ICT 신기술 키워드 중 인공지능에 이어서 확고한 2위를 차지하고 있다.

 2.  빅데이터 프로세스 키워드는 예전에 비해 이슈가 되지 않고 있으며, 특히 데이터의 경우와 비교했을 때 뉴스 기사
      상에서 프로세스 키워드로 인한 차별점이 과거에 비해 거의 없어졌다.

 3.  성능, 크기·용량, 속도 등 스펙적 요소는 데이터에서 더 많이 나타나는 키워드이며 빅데이터는 산업, 경제, 혁신,
      발전 등 사회·경제적, 비즈니스적인 주제에서 더 많이 나타나고 있으나 데이터에서도 기술 외적인 분야에서 사용
      되는 비중이 시간이 지날수록 늘어나고 있다.
 

 4.  따라서 빅데이터와 데이터 사이의 의미 구분이 옅어지고 있으며 빅데이터의 트렌디한 이미지가 데이터로 많이 흡수
      되어, ‘17년 하반기부터 데이터가 빅데이터의 상승폭을 이어받아 상승폭을 높여가고 있으며 반대로 빅데이터는
      상승이 주춤해지고 있다.

 5.  빅데이터 관련 법·제도가 언급된 뉴스는 법·제도라는 중립적 키워드 보다 규제라는 부정적 키워드 사용비율이 높아
      지고 있어, 현행 법 및 제도에 대한 인식이 부정적으로 변화하고 있다.

 

 

<타이틀 그림 출처 : http://www.thebluediamondgallery.com/tablet/b/big-data.html>