Please enable JavaScript.
Coggle requires JavaScript to display documents.
빅데이터와 데이터 수집 1118 이동현 - Coggle Diagram
빅데이터와 데이터 수집 1118 이동현
문제 해결에 필요한 데이터 수집
데이터를 활용해 문제를 해결하기 위해서는 문제 해결에 적합한 데이터 수집이 필요하다. 문제에 따라 필요한 데이터가 다르므로 데이터의 주제와 데이터의 속성을 고려해야 한다. 또한 저작권 침해, 윤리적 문제 들을 고려하여 수집해야 한다. 마지막으로 스마트 기기를 활용하는 센서 데이터 수집, 다양한 설문지를 활용한 직접 수집 방법, 공공 데이터나 민간 데이터 활용 방법 등이 있다.
직접 수집
직접 수집: 직접 관찰이나 실험 결과 등을 토대로 데이터를 수집하거나 피지컬 컴퓨팅이나 스마트 기기의 센서를 통해 데이터를 수집할 수 있다. 이때 윤리적 문제와 측정 방법, 실험 환경 등에 따라 오차가 발생할 수 있다. 직접 촬영, 녹음, 공공 데이터 등을 직접 수집하는 것도 직접 수집한 것이다.
데이터를 활용한 문제 해결 과정: 문제 상황 이해, 문제 정의, 데이터 수집 및 전처리, 데이터 시각화 및 해석, 공유 및 평가
데이터 전처리: 데이터의 품질을 향상시키기 위해 데이터를 정제 및 변환하는 과정이다.
데이터의 속성: 데이터의 특성을 말하며, 다른 것과 구별할 수 있는 성질이다.
온라인 설문 플랫폼을 이용하여 쉽게 설문 조사를 진행할 수 있다.
문항을 구성할 때 개인 정보나 불편함을 줄 수 있는 문항은 유의해야 한다.
문항 유형에는 단답형, 장문형, 객관식, 체크 박스 ,드롭다운, 파일 업로드 등이 있다.
결측치와 이상치: 데이터에 값이 누락된 것을 '결측치'라고 한다. 설문에 응답하지 않거나 측정되지 않는 시기나 항목이 있을 때 발생한다, 아주 작은 값이나 큰 값을 가지는 데이터를 '이상치'라고 한다.
공공 데이터 및 민간 데이터 활용
공공 데이터: 공공 기관이 생성 또는 취득하여 관리하는 전자적 방식으로 처리되는 데이터이다. 국민이 알 권리를 보장하고 편리함을 높이는데 활용한다. 온라인상에서 파일 데이터, 오픈 API, 시각화 등 다양한 형태로 개방되고 있다.
민간 데이터: 공공 기관이 아닌 개인이나 기업 등에서 생성하고 관리하는 데이터로, 텍스트, 수치, 이미지, 동영상, 오디오 등 다양한 형태가 있다.
공공 데이터 포털: 문화, 해양, 역사, 산업, 과학 기술, 정부 오픈 API, 학술 데이터 등의 검색을 제공한다.
국가 통계 포털: 인구, 물가, 소득, 경제 활동, 사망 원인, 출산률, 실업률, GDP 등 국내 통계뿐만 아니라 국제, 북한의 주요 통계 데이터를 제공한다.
행정안정부:e-나라지도, 주민등록 인구 통계, 행정 안전 통계 시각화 등을 제공한다.
API: 다른 소프트웨어와 상호 작용하기 위한 일련의 규칙과 명세를 뜻한다.
문제 해경을 위해 필요한 데이터 알아보기
학교 도서관 활성화: 인기있거나 유명한 위주 책 정보
급식의 질 개선: 요즘 인기있는 음식 정보
복지 시설 장소 선정: 행정구역 주변 인구 나이대
진로 탐색: 직업에 관한 뉴스
건강 관리: 헬스 기구마다 몸의 변화 정보
빅데이터의 이해
빅데이터의 개념
Date Never Sleeps를 보면 1분 내에 얼마나 많은 텍스트, 이미지, 동영상, 키워드 등에 검색, 데이터가 이루어지는지 알 수 있다.
빅데이터: 기존 데이터베이스 관리 도구로는 관리하기 어려운 규모와 다양성을 가진 데이터를 말한다. 넓은 의미로 빅데이터는 대량의 정형 또는 비정형 데이터 집합에서 가치를 추출하고 분석하는 기술을 뜻한다.
정형 데이터: 표와 같은 구조화된 데이터로 데이터의 속성 값이 구분, 정리된 데이터이다.
비정형 데이터: 이미지, 사운드, 비디오, 텍스트 등 구조가 복잡하여 행과 열로 표현되지 않고 형태가 불규칙한 데이터를 말한다.
빅데이터의 특징
빅데이터는 일반적으로 3가지 특징이 있는데 첫째는 데이터의 규모가 매우 크고 둘째, 데이터의 형태가 다양하며 셋째, 매우 빠른 속도로 생성되는 데이터를 실시간으로 저장, 분석, 처리할 수 있다. 이러한 '3V'의 특성을 바탕으로 신뢰할 수 있는 정보를 제공하는 등 유의미한 가치가 있다.
3V: 용량, 속도, 다양성
4V: 장확성
5V: 가치
빅데이터의 활용 사례
빅데이터는 다양하게 사용되는데, 예를 들어 교튱 데이터를 바탕으로 최적의 대중 교통 노선과 배차 간격 등을 제시한다. 의료 건강 관련 분야에서는 신체 데이터를 수집하여 운동, 질병 예방 서비스를 개발할 수 있다. 유통 분야에서는 고객이 상품 목록과 구매 이력 등을 통해 소비 패턴을 분석하여 상품 배치 및 광고 내용을 결정할 수 있다. 교육 분야에서는 학생들의 학습 데이터를 분석하여 맞춤형 교육 프로그램 개발이 가능하다.
데이터 과학: 컴퓨터 공학, 수학, 통계청 등이 융합된 분야로, 다양한 데이터 속에 담긴 패턴을 찾아내고, 진단 및 예측에 도움이 되는 정보를 발굴하는 과학적 방법론이다.