빅데이터 관련 뉴스 트렌드 분석 - 1. 주요 ICT기술 트렌드와 비교

2019. 11. 12. 11:02데이터 분석/빅데이터 키워드 뉴스 트렌드 분석

728x90

 

Introduction


 

빅데이터란 단어가 주목받은지도 어느덧 6-7년이 되어갑니다.

 

대용량, 분산처리, 비정형 데이터로 주목받고 서울시 심야버스 노선 데이터 분석으로 대중에 널리 알려졌으며, 공공과 기업에서 빅데이터 부서를 만들고 활용하면서 2010년대를 대표하는 기술로 주름잡았는데요.

 

2010년대를 마무리하며 빅데이터가 그 동안 세간의 주름을 잡았는지, 그리고 빅데이터에 대한 인식이 어떻게 변화했는지 정리해보고자 각종 언론에서 등장한 뉴스기사 빈도를 분석하여 확인해보았습니다.

 

한국언론진흥재단에서 서비스 중인 빅카인즈(BIGKinds) 웹사이트는 복잡한 기술이나 코딩없이도 누구나 편리하게 신문 및 방송 뉴스기사를 검색하고 분석할 수 있는 기능을 갖추고 있습니다.

 

 

 

검색된 뉴스기사 리스트와 더불어, 시간에 따른 트렌드, 연관어 분석, 관계도 그래프 등을 시각적을 보여주고 엑셀파일이나 그림파일로 다운받을 수 있어서 보고서에 삽입하거나 엑셀이나 R 등 프로그램을 통해 추가적인 분석을 하기 편리합니다.

 

그래서 이번 빅데이터 키워드 트렌드 분석을 위한 데이터를 빅카인즈에서 여러 가지 조건으로 키워드 검색를 통해서 얻었고, 엑셀로 가공해서 표현해보았습니다.

 

이번 분석은 빅데이터가 주목받기 시작한 해인 201311일부터 20191031일 현재까지를 대상으로 하였으며,  빅카인즈에서 제공하는 54개 신문,방송사 중 조사 전 기간에 걸쳐 수집되지 못한 방송사 5곳 및 신문사 5곳(국민일보, 동아일보, 조선일보, 중앙일보, 아주경제)을 제외한 총 44개 언론사를 집계대상으로 하였습니다.

 

<빅데이터 트렌드 분석 대상 언론사>

 

 

 

1. 빅데이터 vs 데이터 vs 데이터베이스


 

일단 빅데이터라는 단어는 데이터와 뗄레야 뗄 수 없는 관계에 위치해있습니다.

데이터는 아주 오래전부터 일반적으로 많이 쓰이던 단어인데, 여기에 앞에 (Big)’이라는 단어를 붙여서 최신 기술을 상징하는 특별한 의미로 만들었기 때문이죠.

 

데이터는 일상에서도 종종 사용되지만, 컴퓨터공학의 한 분야이기도 해서 기술이나 공학적인 측면에서도 많이 사용됩니다. 이 때는 주로 데이터를 저장하고 처리,관리하는 의미에서 데이터베이스(또는 DB,DBMS)라는 용어를 많이 사용했습니다.

 

반면 빅데이터는 상당히 복합적인 의미를 포함하고 있는 단어입니다. 전통적인 데이터베이스와 비교해서 대용량(Volume), 고속처리(Velocity), 다양한 형태(Variety)라는 3V 요소를 갖춘 데이터베이스를 의미하기도 하고, 기존 샘플에 의존한 통계 분석에서 나아가 전수 데이터를 활용한 새로운 분석 기술 및 방법론이라는 데이터베이스와는 상관없는 통계가 고도화된 의미로 사용되기도 합니다. 여기서 더 나아가 데이터를 활용해 이전보다 더 큰 가치와 서비스를 창출하는 등 데이터를 활용하는 것 까지 빅데이터라고 칭하기도 합니다. 결과적으로 빅데이터기존의 데이터와 데이터베이스의 개념을 확장 및 차별화하기 위한 단어라고 볼 수 있겠습니다.

 

 

 

데이터와 빅데이터, 그리고 데이터베이스(DBMS,DB 포함) 키워드에 대한 뉴스기사 등장 빈도 추이입니다. 2013년 초 데이터는 2,038개 뉴스에 등장하였으며 빅데이터는 352, 데이터베이스는 1,095건 등장하였으나 201910월 현재 데이터는 5,323건으로 161%, 빅데이터는 2,713건으로 671% 각각 상승하였으나, 데이터베이스는 1,148건으로 4.8% 상승하는데 그쳐 대조적인 모습을 보였습니다.

 

추이로 보면 데이터는 ‘17년까지 완만하게 상승하다 ’18년부터 상승률이 높아지고 있으며, 빅데이터는 2018년 초까지 가파르게 상승하여 최고치를 찍은 이후 현재까지 비슷한 수준을 나타내고 있습니다. 반면 데이터베이스는 ‘15년도에 잠시 상승하여 ’16년 초 최고치를 나타낸 이후 다시 완만한 하강세로 접어드는 모습입니다.

 

 

데이터 등장 빈도에 대한 빅데이터 및 데이터베이스 등장빈도의 비율을 표시한 그래프에서는 빅데이터가 ‘13년 초 데이터의 17.3%에 불과하였으나 빠르게 치고 올라가 ’18년 초 84% 수준에 달했으나 ‘19년 현재 51%, 절반 수준으로 하락 반전한 것으로 나타났습니다. 반면 데이터베이스는 ’13년 초 53.7%에 이르렀고 ‘17년 까지 40%~60% 구간 내에서 오르내렸으나, ’18년부터 지속적으로 하락하여 ’19년 현재는 21%에 그쳤습니다.

 

한편 빅데이터와 데이터베이스를 합친 비중은 ‘13년 초 71% 수준에서 ’17년에 132%까지 상승하였으나, 이후 빅데이터와 데이터베이스 키워드 비중의 동반하락으로 현재는 ‘13년도 초 수준으로 다시 회귀하였습니다.

 

 

 

 

2. 빅데이터 vs 연관 기술


 

빅데이터가 2010년대를 달궜던 이유는 빅데이터 자체의 유용성도 있지만, 인공지능이나 IOT(사물인터넷), 클라우드, 5G와 같은 다른 ICT 기술과 밀접한 관계가 있기 때문입니다. 이 기술들이 모두 데이터를 이용하거나 데이터를 수집, 저장, 전송할 목적으로 활용되기 때문에 근간에는 빅데이터가 있다고 볼 수 있습니다.

 

 

 

빅데이터를 비롯한 다른 여덟가지 기술 키워드에 대한 뉴스 등장빈도 추이를 비교한 결과, ‘13년 초에는 클라우드가 가장 높았으며, 그 다음은 빅데이터였고 나머지는 미미하거나 없는 수준이였습니다. 그러다가 ’15년부터 서서히 상승 중이던 인공지능이 ‘163월 알파고와 이세돌의 바둑대결 사건으로 한 때 폭증한 이후 다른 기술과 큰 격차를 벌리며 ’19년 현재 1위를 달리고 있는 것으로 나타납니다. 빅데이터는 ‘19년 현재도 3위 이하 다른 기술들과 어느 정도 격차를 벌리며 2위를 꾸준히 유지하고 있습니다.

 

다른 기술들은 일시적으로 크게 상승하는 등 이벤트가 있었으나 현재는 모두 고만고만한 수치를 나타내는 것으로 보아 빅데이터가 최근에는 눈에 띄는 사건이 없음에도 여전한 대중성을 가진 키워드라는 것을 알 수 있었습니다.

 

 

 

한편 빅데이터 키워드가 등장한 뉴스 기사 중 각 기술 키워드가 함께 나타난 뉴스 기사 빈도는 ‘1910월 현재 기준으로 인공지능이 약 1,200건으로 다른 기술과는 현격한 차이로 1위를 차지했으며, 그 다음으로는 IoT, 클라우드, 5G 순으로 나타났으며, 블록체인, 핀테크, VR/AR은 거의 비슷하게 나타났으며 스마트시티가 가장 낮았습니다. 각 기술 키워드의 등장 빈도가 높을수록 빅데이터와 함께 나타나는 빈도도 대체로 함께 높게 나타나는 데 기인하며, 이는 빅데이터 키워드 등장빈도가 다른 유관 ICT기술 키워드와 대체로 양의 상관성을 보여줍니다.

 

 

 

인공지능이라는 단어는 꼭 요즘의 머신러닝 기반의 기술이 아니더라도 게임이나 여러 분야에서 사용되어왔습니다. 하지만 그런 것 치고는 ‘131월에는 153건으로 빅데이터 등장빈도의 절반에도 못미치는 수준이였습니다. 그러다 빅데이터와 약 2년 여의 시간 차를 두고 ‘15년 하반기부터 상승조짐이 보이다 ’163월에 알파고와 이세돌 바둑대결 사건으로 파란을 일으킨 뒤 급가속하여 ‘17년부터는 빅데이터의 두 배 수준으로 빈도가 늘어난 상태입니다.

한편 빅데이터 키워드가 등장한 뉴스 기사 중에 인공지능(AI) 키워드 등장 건수는 약 1천 건으로 20%~25% 정도 비중을 차지해 비교적 높은 비율을 차지하고 있는데, 실질적으로 빅데이터와 겹치는 부분이 있는 기술임에도 이후에 보여드릴 클라우드나 IoT(사물인터넷)보다는 근소하게 낮게 나온 이유는 인공지능 키워드가 갖는 파워가 대단히 높아서 굳이 빅데이터와 병렬해 사용할 필요성을 느끼지 않기 때문일거라 추측해봅니다.

 

 

클라우드는 다른 기술들과 달리 ‘131월 당시 유일하게 빅데이터보다 높은 등장 빈도를 나타냈으며, 특정 시기에 피크를 찍지 않고 굉장히 완만하게 상승하는 모양새입니다. 클라우드는 2010년 정도부터 주목받기 시작했는데, 개인용 클라우드는 국내에서는 붐이 좀 일었다 지금은 꺼진 상황이고 현재는 기업 위주 서비스로 재편되는 등 비즈니스 모델의 변화로 대중 레벨에서는 크게 이슈되지는 못하고, 대신 기업에서 클라우드가 서서히 확산되는 중이라 그러한 점이 반영되는 것 같습니다.

한편 빅데이터 키워드 뉴스 기사 중 클라우드 등장 비율은 ‘16년 이후 20%~35% 수준으로 인공지능과 비슷하거나 좀 더 높은 비중을 나타내 클라우드와 빅데이터가 높은 연관성을 가지는 것으로 나타났습니다.

 

 

 

IoT(사물인터넷)은 빅데이터와 인공지능가 뜨기 시작한 중간 지점인 ‘14년부터 주목받기 시작해서 ’17년 하반기에 2,410건으로 피크를 찍은 이후 현재는 다소 하락해 1,600건 수준에 이르고 있습니다. 빅데이터 키워드 뉴스 기사 중 IoT 등장 비율은 샘플 수가 낮아 수치가 오락가락하는 ‘14년 상반기까지를 제외하고 본다면 20%~30% 수준으로 인공지능과 비슷한 수준입니다.

 

 

 

블록체인은 다른 기술보다도 등장시키가 늦은 편인데 ‘16년 초부터 뉴스 기사에 등장하기 시작해 불과 2년만인 ’181월에 피크를 찍고 ‘19년부터 하락 반전한 짧고 굵은 전형적인 시류를 타는 키워드의 모습을 보였습니다. ’17-‘18년 비트코인 광풍이 사회를 떠들썩하게 했던 것 치고는 블록체인 키워드 등장 빈도는 빅데이터를 한 번도 넘어선 적이 없었다는 점이 다소 의외였습니다. 즉 비트코인 광풍 시기에 미디어는 암호화폐라는 화폐적 가치 외에 블록체인 기술의 활성화 및 보편화에는 생각만큼 크게 주목하지 않았다는 의미로 볼 수 있습니다.

빅데이터 키워드 뉴스 기사 중 블록체인 등장 비율은 초반부를 수치가 들쭉날쭉한 때를 제외하고는 현재는 15~20% 선을 유지하고 있어 앞선 세 기술보다는 낮은 연관성을 보이고 있습니다.

 

 

 

핀테크도 블록체인과 비슷하게 ‘14년 하반기 이전에는 전혀 등장하지 않은 키워드였습니다. 그러다 ’14년 하반기부터 ‘15년 상반기 1년 사이에 예열 기간없이 한순간에 치고 올라가 등장시기 대비 고점을 찍은 기간은 블록체인보다도 빠를 정도입니다. ’155월 약 1,600건을 기록할 때 잠시 빅데이터를 제치기도 했지만 금방 하락하여 ‘17년 다소 침체를 겪었으나 ’19년 들어 다시 서서히 상승하는 모양새입니다.

빅데이터 키워드 뉴스 기사 중 핀테크 등장 비율은 블록체인과 비슷한 15%~25% 수준으로 연관도가 높지는 않은 걸로 나타났습니다.

 

 

 

가상현실(VR), 증강현실(AR)은 스마트폰이 보편화되기 시작한 2010년대 초부터 이슈된 적이 있어 ‘13년 초에도 172건으로 빅데이터의 절반 수준의 등장 빈도를 나타냈습니다. 그러나 AR이 생각보다 지지부진하여 정체기를 겪다가 ’16년부터 VR 게임이 속속 발매되고 VR방이 등장하는 등의 현상에 힘입어 빠른 속도로 상승하고 현재는 1,700건 수준에서 안정기에 접어든 모양입니다. VR, AR 기술은 시각적으로 보여주는 요소가 중요하기 때문에 뒷면에 있는 우리가 일반적으로 생각하는 데이터와는 다소 개념상 거리가 있어 빅데이터 키워드 뉴스 기사 중 VR,AR 등장 비율은 5%~10%로 낮게 나타났습니다.

 

 

스마트시티는 다른 순수한 ICT기술과 다르게 건설,교통,토목 등과 융합된 개념이라 결이 좀 다르긴 하지만 ICT 기술이 많이 접목된 분야라 통계를 내보았습니다. 스마트시티는 완전히 새로운 개념은 아니고 2000년대에 세간을 달궜던 유비쿼터스가 진화한 또 다른 이름이라고 할 수 있습니다. 때문에 ‘13년부터 명칭 교체가 서서히 이루어지면서 ’18년도까지 꾸준히 상승하고 ‘19년에 안정화된 모습입니다. 클라우드와 비슷하게 기업이나 공공에서 주로 이슈되고 있으며 일반 대중에까지는 눈에 띄는 파급 사례가 없어 등장 빈도가 1천 건 이하로 적은 편입니다. 빅데이터 키워드 뉴스 기사 중 스마트시티 등장 비율은 10%~20% 수준으로 IoT, 클라우드 등 타 기술을 매개로 간접적으로 연관되어 있어 빅데이터 키워드와 직접적인 연관성은 낮은 것으로 나타납니다.

 

 

LTE에 이은 차세대 통신기술로 올해 43일 처음으로 상용 서비스를 시작한 5G‘14년부터 조금씩 등장하기 시작해, 5G 기술 시연을 적극적으로 홍보했던 ’18년 평창올림픽 이벤트를 전후로 급속히 상승하기 시작해 전세계 최초 상용 서비스를 시작한 '194월에 2,443건으로 최고치를 찍고 현재는 1,500건 수준으로 안정화된 모습입니다. 빅데이터 키워드 뉴스 기사 중 5G 등장 비율은 초기에는 10%~30% 사이를 왔다갔다 했으나 현재는 10%~15% 수준으로 내려앉아 빅데이터와 직접적인 연관성은 낮은 것으로 나타났습니다.

 

 

 

 

3. (빅)데이터 프로세스별 키워드 분석


 

()데이터를 활용하는 프로세스는 수집저장처리분석시각화, 그리고 일련의 프로세스를 만드는 구축으로 간략화 될 수 있습니다. 이번 챕터에서는 ()데이터 프로세스에서 어떤 요소가 더 많이 부각되었는지 추이를 확인해보고, 데이터와 빅데이터 별로 구분하여 추이를 비교해봄으로써 데이터와 비교했을 때 빅데이터는 어떤 프로세스를 더 강조하는 지 살펴봅니다.

 

 

 

먼저 빅데이터 키워드로 검색된 뉴스 기사 중 각 프로세스 키워드가 포함된 기사들의 빈도를 정리한 결과, 시간에 따른 순위변동없이 분석, 구축, 수집, 처리, 저장, 시각화 순으로 나타났습니다. 한편 빅데이터 등장 빈도에 대한 이 여섯가지 프로세스 키워드 빈도의 합의 비율을 계산한 결과, ‘13140%~160% 수준에서 출발하여 ’17년까지 서서히 감소하여 현재는 105.6% 수준으로 관측되었습니다. 이것은 빅데이터 초창기 뉴스에는 수집,저장,구축,처리,분석,시각화 키워드가 함께 나오는 빈도가 높았으나 현재는 이전만큼 프로세스 키워드가 많이 나타나지 않는다는 것을 의미합니다.

 

 

 

다음으로는 데이터키워드로 검색된 뉴스 기사 중 각 프로세스 키워드가 포함된 기사들의 빈도를 표시해보았습니다. 각 키워드별 순위는 빅데이터와 별 차이가 없는 것으로 나타났습니다. 다만 빅데이터 빈도에 대한 프로세스 키워드 빈도의 합의 비율은 ‘13년 초 81.4%로 빅데이터와 현격한 차이가 났으나, ’1910월 현재는 99.4%로 점진적으로 상승한 것을 보여줍니다. 이것은 데이터라는 키워드는 예전보다 현재가 프로세스에 대한 언급이 함께 나타나는 비율이 높아졌음을 의미합니다.

 

 

 

이제 시간의 흐름에 따라 빅데이터와 데이터에 대한 프로세스 키워드 비중을 나란히 비교해보면 ‘13년에는 빅데이터는 프로세스 키워드 비중이 높고 데이터의 경우 낮았지만 그 차이가 점점 좁아져 ’17년부터는 둘 다 100% 선에서 거의 비슷하게 나타납니다. 이것이 의미하는 바는 빅데이터가 부각되던 ‘13년 당시에는 기존의 데이터와 대비하여 빅데이터는 수집,저장,처리,분석 등 프로세스가 많이 부각되었으나, 현재는 프로세스 상으로는 거의 빅데이터와 데이터를 구별없이 쓰고있다는 것입니다.

 

 

 

한편 프로세스 키워드 빈도의 합을 100%로 놓고 각 프로세스 별 상대적인 비중을 계산한 결과 분석 키워드는 ‘1340%에서 출발해 ’16년에 50%에서 정점을 찍은 이후 ‘17년부터 다시 서서히 하락하여 현재는 40%대 초반을 기록하고 있습니다. 수집 키워드는 ’139.4%에서 현재 10.1%로 거의 변동이 없었으며, 처리와 저장은 ‘13년 초 각각 13.6%, 10.2%였으나 현재 8.4%, 4.6%5%p 하락한 것으로 나타났습니다. 시각화는 거의 변동없이 1%대에 머물며 뉴스에서 다뤄지는 빈도는 낮은 것으로 보이며, 유일하게 구축 키워드는 ’13년 초 21.8%에서 현재 31.6%로 비중이 꾸준히 상승한 키워드로 드러났습니다.

 

이것은 빅데이터 초기에는 수집, 저장, 처리, 분석 등 개별적인 요소가 주로 부각되었다면, 현재는 빅데이터 산업이 성숙기에 접어들며 개별적인 프로세스에 대한 성과보다는 이 프로세스를 시스템 또는 플랫폼으로 묶어 지속적으로 이용할 수 있는 빅데이터 환경을 구축하는 것으로 트렌드가 이행되었음을 보여준다고 할 수 있을 것 같습니다.

 

 

 

다음으로는 데이터에 대한 프로세스 키워드 상대적인 비중의 차이에서 위에서 보여드린 빅데이터에 대한 프로세스 키워드의 상대적인 비중을 뺀 차이를 비교하였습니다. 이것은 각 프로세스 별로 빅데이터 데이터 키워드가 들어간 뉴스기사에 등장하는 비중의 차이를 보여줍니다.

 

여기서 흥미로운 점은 여섯 개의 프로세스 키워드 빈도의 상대적인 비중은 ‘13년 초에는 빅데이터와 데이터 사이에 차이가 별로없으나(여섯 개의 선 모두 0%를 중심으로 빽뺵하게 몰려있는 것), ’16년부터 점차 분화되기 시작하는 것을 볼 수 있습니다.

 

수집, 저장, 처리 키워드는 데이터 키워드에서 2%~5% 더 높은 비중을 갖고 나타나며, 시각화는 0% 수준으로 차이가 거의 없었습니다. 반면 구축과 분석은 빅데이터가 5% 정도 더 높은 비중을 차지하였는데, 이것은 구축, 분석은 다른 프로세스 키워드에 비해 빅데이터에서 더 자주 등장하며, 반대로 수집, 저장, 처리는 데이터에서 더 자주 등장하는 것을 의미합니다.

이렇게 빅데이터와 데이터 사이에서 프로세스 키워드의 비중의 분화는 두 가지 요인이 있을 것이라 생각됩니다. 데이터와 빅데이터에서 좀 더 중요하게 다루는 영역에 차이가 생겼거나, 또는 그것과 무관하게 언어적인 측면에서 사람들이 빅데이터는 구축, ’분석과 좀 더 잘 호응한다고 느끼고(ex) 빅데이터 구축, 빅데이터 분석), 데이터는 수집, 저장, 처리에 좀 더 어울린다고 생각하는 것(ex) 데이터 수집, 데이터 저장, 데이터 처리)일 수도 있습니다.

 

 

 

  <다음 글 이어서 보기>  

 

 

'빅데이터' 키워드 뉴스 트렌드 분석 - 2. 키워드 분석으로 본 데이터와 빅데이터의 인식 차이

4. 빅데이터 특성(5V)에 대한 빈도 분석 이번에는 데이터 및 빅데이터 뉴스기사에 관련 단어들이 얼마나 많이 등장하는 지 추이를 살펴봅니다. 먼저 빅데이터의 특성으로 많이 정의되었던 5V, 즉 Volume(용량,크..

ellun.tistory.com

 

<타이틀 그림 출처 : http://www.thebluediamondgallery.com/tablet/b/big-data.html>