2022. 5. 21. 17:42ㆍIT, 데이터/중고등학교 통계, 데이터 강의자료
본 슬라이드는 고등학교 수업에서 통계 및 데이터 분석의 중요성과 사회연구를 위한 통계, 데이터 분석 방법을 이해할 수 있도록 제작한 강의자료입니다.
1,2차시 내용으로 구성되어 있으며, 1차시에서는 통계와 데이터의 개념적인 부분을 설명하고 활용 사례를 소개하며,
2차시에서는 사회조사 및 연구 실습을 위한 설문조사 설계, 통계분석, 데이터 시각화에 관한 기초적인 이론을 설명하였습니다.
강의자료 관련 질문사항이나 의견사항은 이메일로 보내주세요 :) (ellun7@gmail.com)
사회연구 유형 및 설문조사 방법
사회과학에서 연구는 크게 통계적인 방법 등 정량적인 분석을 하는 '양적 연구'와
수치화할 수 없는 고유의 특성을 조사하고 해석하는 '질적 연구'로 분류할 수 있습니다.
통계 및 컴퓨터 기술의 발달로 최근의 사회과학 분야에서도 '양적 연구' 방법을 주로 활용하고 있으나,
수치정보에서는 파악할 수 없는 심층적인 의미를 파악하기 위해 '질적 연구'도 의미가 있다고 볼 수 있습니다.
그리고 사회과학의 연구 접근방법은 '횡단적 연구'와 '종단적 연구'가 있는데,
횡단적 연구는 한 시점을 기준으로 여러 대상 또는 지역들을 조사하는 방법을 말하고
종단적 연구는 동일한 집단을 여러 기간에 걸쳐 조사하여 변화를 관찰하는 것을 말합니다.
사회연구에서 양적 연구로 현재까지도 빈번하게 활용되고 있는 방법이 바로 '설문조사'입니다.
설문조사는 몇 가지 설계 기준 및 처리방법을 이해한다면, 비교적 쉽게 사회현상이나 사람들의 의견을 직접적으로 확인하고 정리할 수 있기 때문입니다.
그래서 고등학교 레벨에서 설문조사를 설계하고 표본을 선정하여 결과를 정리하는 방법에 대해 알아보도록 합니다.
예전에는 설문조사를 워드 등으로 만들어서 출력하여 오프라인으로 조사를 해야했으나,
최근에는 온라인으로 간편하게 질문지를 만들고 배포할 수 있는 사이트들이 많이 있습니다.
무료로 이용할 수 있는 사이트로는 'Google Forms' 등이 있으니 참고하여 활용하면 좋을 것 같습니다.
마지막으로 설문조사 방법 외에 사회나 지역, 산업과 관련된 데이터를 다운받을 수 있는 웹사이트들이 있습니다.
공공데이터포털, 지자체별 데이터 포털, 빅카인즈(뉴스 데이터 제공), 통합데이터지도(산업분야별 데이터), 통계청(국가 주요 통계) 등을 활용하시면 좋습니다.
통계분석 및 해석
통계분석을 할 때는 데이터가 어떤 '척도'인가에 따라 적합한 분석방법들이 다르기 때문에, 척도에 대해 이해하는 것이 필요합니다.
척도는 측정 단위와 비슷한 개념으로 생각할 수 있는데, 크게 4가지 유형으로 분류할 수 있습니다.
'명목척도'는 값들이 같은 지 다른 지만 구분할 수 있고, 순서나 크기를 잴 수 없는 것들이 해당되고 (성별, 지역, ID 등)
'서열척도'는 값의 순서는 있지만 거리나 차이를 잴 수는 없는 것들이 해당됩니다. (순위, 등급 등)
반면 '등간척도'는 값의 순서가 있고 크기의 차이를 잴 수 있고, (온도, IQ, 시험점수 등)
'비율척도'는 등간척도와 유사하나, 곱셈, 나눗셈 등 비율도 측정할 수 있는 것들이 해당됩니다. (키, 몸무게, 인구 수, 소득 등)
통계분석은 크게 '기술통계'와 '추론통계'로 구분할 수 있으며,
기술통계는 우리가 보통 생각하는 평균, 분산 등을 구하거나 그래프로 시각화하는 등 데이터가 보여주는 현상을 요약하거나 정리하는 것들이 해당됩니다.
이러한 기술통계만으로도 우리는 많은 정보를 파악할 수 있는데요. 그렇기 때문에 통계를 잘못해석하는 오류를 범하기 쉬운데, 대표적으로 '생태학적 오류'와 '개인주의적 오류'가 있습니다.
추론통계는 통계가 보여주는 표면적인 정보 외에 확률 이론 등을 바탕으로 통계의 신뢰성이나 통계치 간의 차이 여부의 유의미성 등을 파악하는 것을 말합니다. 대표적으로 여론조사에서 표본오차와 신뢰구간을 구하는 것이 여기에 해당된다고 볼 수 있습니다.
통계분석은 여러 가지 방법이 있으나, 대표적으로는 통계적 검정, 상관분석, 회귀분석과 같은 것들이 있습니다.
상관분석은 데이터의 경향을 쉽게 파악할 수 있는 유용한 도구이나, 상관분석만으로는 상관관계를 측정할 수 있지 인과관계를 알 수는 없기 때문에 상관관계를 지나치게 확대해석하지 않도록 유의해야 합니다.
데이터 시각화
마지막으로 데이터 분석결과를 보여줄 때 유용한 방법인 데이터 시각화의 개념과 기본 원칙을 알아봅니다.
데이터를 시각화하는 이유로는 여러가지가 있겠으나, 대표적으로는 수치로만 보았을 때 발견하기 힘든 패턴이나 의미를 눈으로 쉽게 찾을 수 있고 직관적으로 이해하기 쉬운 도구이기 때문입니다.
데이터를 시각화 하는 요소로 위치, 모양, 크기, 색상, 선의 굵기나 타입 등이 있고, 이러한 요소들을 조합하여 데이터를 분류하고 특성을 표시합니다.
데이터의 속성이나 보여주고자 하는 내용에 따라 시각화를 할 수 있는 다양한 방법들이 있는데,
크기를 나타낼 때는 대표적으로 막대 그래프가 사용되고, 비율을 나타낼 때는 원형(도넛) 차트 또는 비율 막대 그래프를 활용합니다.
그리고 두 변수 간의 관계를 표시할 때는 산점도 등이 활용되며, 데이터의 분포를 나타낼 때는 히스토그램이나 박스플롯(상자수염그림)이 주로 활용되고 있습니다.
데이터를 시각화하는 도구로는 학생이나 직장인들은 엑셀과 같은 보편적으로 활용되는 프로그램을 사용할 수 있고,
조금 전문적인 통계 차트를 만들고 싶을 때는 R이나 파이썬, SPSS 같은 통계분석을 할 수 있는 프로그램이 사용되기도 합니다.
그리고 flourish.studio같은 웹 상에서 데이터를 예쁘게 만들 수 있는 무료 사이트들도 있어서 인포그래픽 같은데서 보던 시각화를 쉽게 학생들도 만들어 볼 수 있습니다.
강의자료 슬라이드 파일은 아래 링크를 통해 다운받으실 수 있습니다.
'IT, 데이터 > 중고등학교 통계, 데이터 강의자료' 카테고리의 다른 글
사회 연구를 위한 통계 데이터 분석 1 - 고등학교 강의 자료 (0) | 2022.05.21 |
---|---|
중고등학생, 청소년을 위한 빅데이터 기초 및 진로 강의자료 공유 (0) | 2021.09.04 |
청소년을 위한 데이터 분석가 직업 소개 자료 공유 (개정) (2) | 2021.09.04 |