사회 연구를 위한 통계 데이터 분석 1 - 고등학교 강의 자료

2022. 5. 21. 16:11IT, 데이터/중고등학교 통계, 데이터 강의자료

728x90

본 슬라이드는 고등학교 수업에서 통계 및 데이터 분석의 중요성과 사회연구를 위한 통계, 데이터 분석 방법을 이해할 수 있도록 제작한 강의자료입니다.

 

1,2차시 내용으로 구성되어 있으며, 1차시에서는 통계와 데이터의 개념적인 부분을 설명하고 활용 사례를 소개하며,

2차시에서는 사회조사 및 연구 실습을 위한 설문조사 설계, 통계분석, 데이터 시각화에 관한 기초적인 이론을 설명하였습니다.

 

 

통계의 개념과 필요성


 

통계는 우리의 TV나 인터넷 속, 공부나 일할 때와 같이 우리의 일상생활 여러 곳에서 접할 수 있습니다. 

통계는 표면적으로는 숫자를 나열한 것이지만, 그 숫자는 단순한 수의 양이나 크기가 아니라, 통계가 산출된 기준이라든가 배경지식에 따라서 여러가지 의미를 가지고 해석될 수 있습니다.  그래서 통계자료를 제대로 이해하고, 통계를 만든 사람의 의도를 좀 더 정확히 캐치하기 위해서는  통계기법이라든가 통계를 만드는 방법을 이해하는 것이 중요하다고 볼 수 있습니다.

 

그리고 앞서 말씀드린 것처럼 통계는 단순한 숫자가 아니라 의미를 갖고 있기 때문에, 통계결과를 만들거나 보여줄 때 통계를 만드는 사람의 의도가 많든 적든 들어가게되고, 이 과정에서 오류나 왜곡이 발생할 수 있습니다.

수치와 그래프 사이의 길이의 비율이 맞지 않는 경우도 있고, 때로는 의도적으로 사람들이 통계 내용을 착각하게끔 왜곡하는 경우도 있습니다. 

그래서 통계에 대해서 기초적인 이해능력이 있으면 이렇게 잘못된 자료의 오류를 간파하고 정확한 내용을 이해하는데 도움이 됩니다.

 

그리고 일상생활이나 공부, 일을 하면서 개별적인 수치자료를 접하게 되는데, 이러한 자료들을통계를 통해 과학적이고 체계적으로 조사하고 분석해서 많은 지식을 얻거나 도움이 될 수 있습니다. 카페나 음식점을 경영하는 자영업 때도 매출이 어떻게 변하는지, 재료비가 얼마나 드는지 이런 것들을 좀 더 체계적으로 확인하고 개선할 때 통계를 알아두는 것이 반드시 필요합니다.

 

일반적으로 통계는 탐색적 분석과 추론적 분석으로 구분할 수 있습니다.

 

탐색적 분석은 우리가 흔히 생각하는 통계수치들을 합하거나 평균내는 등을 통해 데이터를 요약하거나, 그래프 등으로 시각화하여 데이터의 패턴을 직관적으로 파악하는 등의 방법이 해당됩니다.

 

반면 추론적 분석은 확률의 특성이나 표본과 모집단 과의 통계적 관계 등 이론을 가지고, 눈에 보이는 수치들의 표면적인 정보를 넘어 통계치의 특성을 예측하거나 추론하는 것을 말합니다. 대표적으로 여론조사에서 표본에 대한 조사결과가 얼마나 신뢰성이 있는지, 오차는 어떻게 되는지 추정하는 것들이 추론적 분석에 해당됩니다.

012345678910

 

 

데이터와 빅데이터


 

우리가 통계를 만들고 분석하기 위해서는 데이터가 필요한데요.

데이터는 사회현상이나 자연현상을 관찰하거나 실험, 조사하여 얻은 사실이나 자료를 말합니다.

 

사실 데이터는 이미 우리 주변에 많이 존재하고 있습니다.

 

대표적으로 설문조사 결과가 데이터에 해당될 수도 있고, 일반적으로 생각하는 것들 뿐만 아니라

스마트폰으로 촬영한 사진에도 사진 이미지 뿐만 아니라 부가적으로 저장되는 데이터가 있으며, 유튜브 영상, 버스도착정보 등 일상생활 중에 마주치는 많은 것들이 데이터로 저장되어 있지요.

 

한편, 2010년대 들어서 컴퓨터, 모바일, 통신 기술들이 발전하면서 '빅데이터'라는 말이 자주 등장하기 시작했는데요.

그러면 빅데이터는 그냥 데이터와 무슨 차이가 있을까요?

 

빅데이터(Big Data)는 말그대로 큰 데이터, 대량의 데이터를 빅데이터라고 하기도 하지만,

꼭 대량의 데이터여야만 빅데이터인 것은 아니고, 일반적으로는 기존의 데이터와 차별화되는 5가지 특성, 즉 5V(Volume, Variety, Velocity, Veracity, Value)* 요소를 가지고 있는 것으로 정의하고 있습니다.

 

* 대규모, 다양성, 빠른 속도, 신뢰성, 가치

 

 

 

 

 

 

01234567891011121314

 

 

 

데이터 분석 과정


 

데이터 분석과정은 데이터의 특성과 분석 목적, 참여하는 사람들의 역할에 따라 달라질 수 있으나,

대체적으로 분석 주제 선정 → 데이터 수집  데이터 가공  데이터 분석  결과 활용 순서로 이루어집니다.

 

주제 선정 단계에서는 데이터 분석을 하고자 하는 학생 또는 연구자(그 밖에 회사 직원이 될 수도 있겠죠)등의 관심 분야, 사회적 이슈, 또는 분석의 필요성 등 다양한 목적에 따라 주제를 탐색하고,

세부적으로 데이터를 통해 기존에 알지 못햇던 새로운 사실을 밝힐 수 있는 '가설'을 설정하여 분석주제를 선정하게 됩니다.

 

데이터 수집 단계에서는 분석가가 가지고 있지 않은 데이터를 가져올 수 있는 방법을 찾아, 데이터와 자료들을 얻고,

데이터 가공 단계에서는 확보된 데이터를 분석에 활용하기 위해 오류를 수정하고, 데이터를 더 풍부하게 만듭니다.

 

데이터 분석 단계에서는 분석 목적, 데이터의 특징 등을 고려하여 적합한 분석 방법을 활용하는데,

분석 방법으로는 통계 분석, 머신러닝(딥러닝), 공간분석, 시뮬레이션 등 여러 가지 방법이 이용됩니다.

 

마지막으로 분석 결과는 데이터 시각화로 활용하거나, 분석 보고서를 만들 수도 있고, 

또는 빅데이터나 인공지능 기반 서비스 개발에 활용됩니다.

 

 

0123456

 

 

 

 

데이터 활용·분석 사례


 

통계 분석 또는 빅데이터 분석을 활용한 학술적, 산업적 사례를 살펴봅니다.

 

 

1. 임상시험을 통한 코로나19 치료제 효과 분석

2. 교통카드 데이터 기반 버스 도착 및 혼잡도 정보 제공

3. 인터넷 서비스의 개인 맞춤형 컨텐츠 추천

4. 편의점 신상품 개발과 관련된 데이터 수집

5. 유통 데이터와 날씨 데이터를 결합한 날씨별 빵 판매지수 개발

6. 클래식 음반 정보를 활용한 음악가의 소셜 네트워크 분석

 

 

012345

 

01234567891011121314

 

강의자료 슬라이드 파일은 아래 링크를 통해 다운받으실 수 있습니다.

 

사회연구를 위한 통계 데이터 분석_1차시 통계와 데이터 이해.pdf
7.42MB