IT, 데이터(19)
-
ChatGPT로 파이썬 데이터 시각화 시켜보기
ChatGPT가 뜬 지 몇 달이 지나서, 인터넷에 이것저것 질문하고 업무에도 쓸 수 있는 여러가지 방법들도 올라오고 있습니다. 그 중에 유용한 분야로 문장으로 지시하면 코드를 써주는 기능이 있죠. 챗GPT가 어디까지 복잡한 코드를 이해하고 코딩을 해줄 수 있는지는 모르겠는데, 챗GPT로 코딩을 하려면 인공지능 성능은 둘째치고 먼저 내가 코딩하고자 하는 내용을 문장으로 조리있게 쓰는 것 부터가 일단 시작이죠. 예를 들어 여러 조건문, 클래스, 이벤트 들이 난무하는 작동을 챗GPT로 만들게 하려면 일단 내가 생각하는 작동방식을 문장으로 쭉 풀어서 써줘야 하는데, 일단 그것부터가 어렵겠죠. 하지만 몇몇 분야에 대해서는 챗GPT가 크게 도움이 될만한 부분이 있을 것 같았는데, 바로 데이터 시각화 부분이였습니다...
2023.03.14 -
사회 연구를 위한 통계 데이터 분석 2 - 고등학교 강의 자료
본 슬라이드는 고등학교 수업에서 통계 및 데이터 분석의 중요성과 사회연구를 위한 통계, 데이터 분석 방법을 이해할 수 있도록 제작한 강의자료입니다. 1,2차시 내용으로 구성되어 있으며, 1차시에서는 통계와 데이터의 개념적인 부분을 설명하고 활용 사례를 소개하며, 2차시에서는 사회조사 및 연구 실습을 위한 설문조사 설계, 통계분석, 데이터 시각화에 관한 기초적인 이론을 설명하였습니다. 강의자료 관련 질문사항이나 의견사항은 이메일로 보내주세요 :) (ellun7@gmail.com) 사회연구 유형 및 설문조사 방법 사회과학에서 연구는 크게 통계적인 방법 등 정량적인 분석을 하는 '양적 연구'와 수치화할 수 없는 고유의 특성을 조사하고 해석하는 '질적 연구'로 분류할 수 있습니다. 통계 및 컴퓨터 기술의 발달로..
2022.05.21 -
사회 연구를 위한 통계 데이터 분석 1 - 고등학교 강의 자료
본 슬라이드는 고등학교 수업에서 통계 및 데이터 분석의 중요성과 사회연구를 위한 통계, 데이터 분석 방법을 이해할 수 있도록 제작한 강의자료입니다. 1,2차시 내용으로 구성되어 있으며, 1차시에서는 통계와 데이터의 개념적인 부분을 설명하고 활용 사례를 소개하며, 2차시에서는 사회조사 및 연구 실습을 위한 설문조사 설계, 통계분석, 데이터 시각화에 관한 기초적인 이론을 설명하였습니다. 통계의 개념과 필요성 통계는 우리의 TV나 인터넷 속, 공부나 일할 때와 같이 우리의 일상생활 여러 곳에서 접할 수 있습니다. 통계는 표면적으로는 숫자를 나열한 것이지만, 그 숫자는 단순한 수의 양이나 크기가 아니라, 통계가 산출된 기준이라든가 배경지식에 따라서 여러가지 의미를 가지고 해석될 수 있습니다. 그래서 통계자료를 ..
2022.05.21 -
딥러닝을 위한 cuda 지원 opencv 설치 및 활용 방법 (with Python + Windows 10)
opencv는 c++ 기반의 영상, 이미지 처리 오픈소스 라이브러리로 많이 활용되고 있는데요. 몇 년전부터 딥러닝 기술이 많이 이루어지면서 대용량 데이터 학습 및 처리를 위해 속도 향상을 위해 GPU의 중요성이 올라가고 있어서, opencv 4.2 버전부터는 라이브러리 자체에서 NVIDIA GPU 가속 기술인 cuda를 지원하고 있습니다. 하지만 막상 opencv에서 cuda 가속을 사용하려면 단순히 인터넷이나 서버에서 라이브러리를 다운받아 쓰는 게 아니라, 사용자의 하드웨어 및 개발환경에 맞춰서 라이브러리를 생성하는 빌드(build) 작업을 해주어야 하는데, 이 과정이 꽤 번거로울 뿐 아니라 시간도 엄청 오래 걸리고(2시간 이상) 사용자 컴퓨터에 따라 인터넷을 보고 따라해도 잘 안되는 경우가 많아서 여..
2021.09.08 -
중고등학생, 청소년을 위한 빅데이터 기초 및 진로 강의자료 공유
본 슬라이드는 중고등학교 대상 빅데이터 기초 개념을 이해하고 데이터 분석가 진로 강의용으로 제작한 강의자료입니다. 빅데이터의 특징과 인공지능과의 관련성, 그리고 데이터 분석절차, 데이터 분석 사례, 그리고 데이터 분석가 관련 진로에 대해 소개하는 내용으로 구성되어 있습니다. 데이터의 정의와 존재, 그리고 빅데이터의 특징 데이터는 이미 우리 주변에 많이 존재합니다. 스마트폰으로 촬영한 사진에도 사진 이미지 뿐만 아니라 부가적으로 저장되는 데이터가 있으며, 유튜브 영상, 버스도착정보 등 일상생활 중에 마주치는 많은 것들이 데이터로 저장되어 있습니다. 빅데이터는 일반적으로 대량의 데이터를 뜻하지만, 일반적으로 5V(대규모, 다양성, 빠른 속도, 신뢰성, 가치) 중 일부를 지니고 있으면 빅데이터라고 불립니다. ..
2021.09.04 -
청소년을 위한 데이터 분석가 직업 소개 자료 공유 (개정)
본 슬라이드는 고등학생 대상 진로 멘토링 강의용으로 제작한 빅데이터 전문가(데이터 분석가) 직업 소개 자료입니다. 직업 소개와 저의 데이터 분석 및 참여 경험, 관련 전공 및 취업분야와 데이터 분석가가 되기 위한 필요 역량으로 내용이 구성되어있습니다. (2021. 9. 4 / 슬라이드 순서 변경 및 빅데이터 분석,활용 사례 파트를 수정하였습니다.) 빅데이터 전문가(데이터 분석가) 진로 관련 진학 및 취업 방향 빅데이터 전문가는 대량의 데이터를 관리하고 분석하여 의사결정에 도움이 되는 정보를 제공하거나 예측하는 모델을 설계하는 일 등을 하는 직업입니다. 빅데이터 전문가는 기존에 IT와 경영 분야에서 존재하던 데이터베이스 관리자, 통계 및 경영 분석가 등의 직업들이 2010년대 들어 서로 융합되어 탄생한 직..
2021.09.04 -
python, numpy, pandas 날짜 타입 비교 및 정리
데이터를 정리하거나 분석할 때 날짜 시간을 기준으로 정렬하거나 비교할 일들이 많은데, 데이터 분석으로 많이 사용하고 있는 파이썬(python)은 날짜 타입이 여러 종류가 있어서 헷갈리기 쉽습니다. 그 이유는 파이썬에서 수학계산이나 데이터 분석을 위해서는 거의 필수로 활용되는 라이브러리인 numpy와 pandas가 자체 데이터 타입을 갖고 있기 때문인데요. 이것들은 기본 파이썬 데이터 타입과 용도는 비슷하지만 기능과 문법에 차이가 있기 때문에, 제대로 구분하지 않고 인터넷에서 검색해서 복사 붙여넣기하면 제대로 작동하지 않는 경우가 많습니다. A. 파이썬 날짜 시간 타입 이해 먼저 파이썬에서 및 numpy, pandas에서 정의된 날짜타입은 아래와 같습니다. 라이브러리 날짜, 시간 클래스 타임델타 클래스 d..
2021.03.16 -
Pycharm 프로젝트와 GitHub 저장소 연동하기
데스크탑이나 노트북, 업무용 PC 등 다양한 컴퓨터 단말에서 프로그램을 개발하려면 소스코드 및 프로젝트에 필요한 파일을 웹 상에 올려놓고 쓸 수 있는 환경을 만들어놓는 것이 거의 필수라고 할 수 있습니다. 이 때 소스코드 버전관리와 웹 공간에 보관 및 배포를 위해 많은 개발자들이 GitHub(깃헙)을 이용하고 있습니다. 원래는 팀 단위 프로젝트에서 서로 코드를 수정하다가 이상하게 꼬이지 않게하기위해 형상관리하는 목적으로 주로 사용되는데, 개인 개발자의 경우에도 일종의 클라우드 저장소처럼 사용할 수도 있고, 손쉽고 체계적으로 코드를 관리할 수 있어서 좋습니다. 깃헙은 'Git'(깃)이라는 관리 프로그램을 기반으로 작동하는데, Git은 원래 콘솔에서 명령어를 타이핑해서 이용하는 방식이라 초보 개발자나 분석가..
2020.07.30 -
2035년 ICT 미래 유망기술 예측 TOP 15
2035년에는 어떤 미래 기술이 다가올까요? 2019년 8월, 정보통신기획평가원(IITP)에서는 미래사회를 조망하여 경제,사회적으로 이익을 가져올 것으로 예상되는 기술을 조기 예측하기 위한 ICT 기술예측 미래 유망기술 2035 를 발간하였습니다. 이 보고서에서는 보고서, 인터넷, 미디어 등을 통해 언급된 미래 기술들 중 2035년에 실현가능할 것으로 예상되는 15대 ICT 분야 유망기술이 소개되어 있습니다. 이 유망기술들은 약 1년에 걸쳐 각종 자료 조사를 통해 100대 기술을 선정하고 이후 공공기관, 산업, 학계 전문가들의 심층 분석을 통해 50대, 30대를 거쳐 15대 유망기술로 최종 추려졌습니다. 이 유망기술 선정과정에서는 혁신성, 참신성 뿐만 아니라, 우리나라 관점에서 기술실현이 가능하고 타 국..
2019.10.23 -
블록체인, 자율주행차 관련 개인정보 이슈 - 규제자유특구 개인정보 전문가 포럼 내용 요약
규제자유특구, 그리고 해결해야할 개인정보 활용 이슈 7월 8일 월요일, 판교 스타트업 캠퍼스에서 중소벤처기업부 주관으로 '규제자유특구 개인정보 전문가 포럼'이 개최되었습니다. 이번 전문가 포럼은 올해 4월 17일 시행된 규제자유특구 제도에 의해 선정된 특구에서 사업을 추진할 때 예상되는 개인정보 이슈, 특히 블록체인과 자율주행차 기술 관련 개인정보법 등 현 법 제도 문제를 다루고 있어서 지금까지 주로 논의되었던 개인정보보호법 이슈와는 약간 다른 관점에서 새로운 내용을 얻을 수 있어서 흥미있었습니다. 먼저 '규제자유특구'에 대해 소개드리면, '규제자유특구 및 지역특화발전특구에 관한 규제특례법'(약칭 지역특구법)에 의해 지역의 자립적이고 지속적인 성장기반을 구축하여 국가균형발전 및 혁신성장을 목적으로 일정 ..
2019.07.08 -
빅데이터 플랫폼 구축 전략 - 데이터경제 포럼 공개세미나 참관 후기
데이터 경제 활성화 방안, 누가 준비하고 있을까 2010년대의 끝자락에서 지난 10년을 살펴보면, 2010년대는 전통적인 석유, 제조회사가 산업을 선도하던 시대에서 대량의 데이터와 정보기술을 기반으로 하는 기업( ex)애플, 구글, MS, 아마존, 페이스북)의 급격한 성장으로 산업계 트렌드가 변화한 중요한 전환점이 된 시기라고 볼 수 있겠습니다. 이렇게 전 산업에서 데이터를 활용하고 인공지능 기술이 전방위로 확산되고 있는 시대에 데이터 보유수준과 활용능력은 국가와 기업의 경쟁력 핵심적인 역량이 되어가고 있습니다. MIT에서 발행하는 정기간행물인 MIT Technology Review2016년에 게재된 'The Rise of Data Capital'(데이터 자본의 부상)이라는 글에서 데이터는 화폐 자본과 ..
2019.07.06 -
구글 딥마인드가 넘지 못한 게임 - 하나비 인공지능 연구 리뷰
올해 2월, 구글 딥마인드에서 강화학습이 아직 정복하지 못한 한 게임에 대한 논문을 발표했습니다. 강화학습기법은 인공지능이 정복하지 못할 것이라고 하던 바둑을 넘어 도타2까지 각종 컴퓨터 게임을 섭렵하는 기술로 주목받고 있는 와중에도, 강화학습이 전통적인 규칙기반 알고리즘을 넘어서지 못한 게임이 있다는 내용이였는데, 그것은 바둑만큼 복잡한 게임이 아닌 의외로 아주 심플한 카드 게임인 하나비(Hanabi)였습니다. 바둑, 체스같은 게임이 그렇듯이 보드게임, 카드게임은 기계가 학습하기 위한 각종 정보를 데이터화하고 수치화하기 용이해서 인공지능 연구를 평가하는 최우선 실험대상이 되어왔었습니다. 특히 알파고에 이어 알파제로를 기점으로 보드게임 영역은 거의 평정된 분위기고, 최근에는 실시간성, 제한된 정보 등의 ..
2019.05.20 -
보드게임 하나비(Hanabi)와 기본 전략, 그리고 인공지능에 필요한 암시적 커뮤니케이션
예전에 하나비(Hanabi)라는 보드(카드)게임을 한 번 해본 적이 있었습니다. 협동게임인데 룰이 간결하면서도 의사소통이 제한되어 있어 ‘아 이렇게 서로의 생각을 읽지 못하는구나’를 뼈저리게 느끼게 만드는 좌절감을 안겨주는 게임이였죠. 그래서 딱 한 판 해보았을 뿐인데도 기억에 잘 남는 게임이였습니다. 그러던 중에, 올해 2월에 구글 딥마인드 연구진 등에서 바로 이 하나비 인공지능을 테스트한 것을 주제로 논문을 발표해서 관심있어서 찾아보았는데, 인공지능과 관련된 실험 내용 외에도 하나비라는 게임에 대해 익숙하지 않은 사람들을 위해 대략적인 게임 룰과 그 안에서 일어나는 커뮤니케이션 특징을 바탕으로 실제 사람들이 어떻게 효율적으로 전략을 세우고 커뮤니케이션하는지에 대해 친절하게 소개되어 있었습니다. 그래서..
2019.05.17 -
프랑스가 최초로 구글에 개인정보취급 위반으로 5천만 유로의 벌금을 부과했습니다
프랑스의 정보자유위원회(CNIL)가 2019년 1월 21일 GDPR(Global Data Protection Regulation, 일반 데이터 보호 규정)에 따라 투명성 부족, 부정확한 정보, 그리고 개인화 광고에 대한 유효한 동의 절차 미흡으로 구글에 5천만 유로(약 630억원)의 벌금을 부과하였습니다. 참고로 2017년 구글의 모기업 알파벳(Alphabet)의 매출은 1,109억 달러(124조 4,852억원), 순이익은 127억 달러(14조 2,557억원)로 이번에 부과한 벌금은 매출액의 0.05%, 순이익의 0.44% 수준입니다. GDPR은 개인정보 처리 미흡 및 사고, 침해의 정도에 따라 최대 2천만 유로 또는 전세계 총 매출 4% 이내 중 높은 금액의 징벌적 성격의 벌금을 부과할 수 있는 조항이..
2019.01.26 -
가볍게 읽어보는 머신러닝 개념 및 원리 - (4) 비지도학습 알고리즘(군집분석, 주성분분석)
지금까지 지도학습에 해당하는 회귀분석, 의사결정나무, 서포트 벡터 머신과 신경망에 대해서 알아보았습니다. 이번 글에서는 비지도학습 기법인 군집분석과 주성분분석을 소개하도록 하겠습니다. 1. 군집분석(Clustering Analysis) 군집분석은 입력된 데이터들의 값에 따라 어떤 데이터들이 좀 더 비슷한 성질을 가지고 있는지 파악하여 비슷한 것들끼리 군집으로 묶어주는 분석방법입니다. 사람은 어떤 대상이든 일정한 특성에 따라 구분하는 것을 즐겨합니다. 음악같은 경우 곡의 특성에 따라 댄스, 발라드, 힙합, 락 이런 식으로 장르를 구분해서 이름을 붙이기도 하고, 학교에서는 어떤 애들은 모범생 그룹, 어떤 애들은 날라리 그룹, 어떤 애들은 아싸 그룹 이런 식으로 그룹짓기도 하고요. 이렇게 대상을 몇 가지 그룹..
2018.07.28