Please enable JavaScript.
Coggle requires JavaScript to display documents.
인공지능과 학습(1506 김지우) - Coggle Diagram
기계학습과 데이터
전통적 프로그래밍과 기계학습
-
-
컴퓨터는 빠르고 정확한 계산 능력을 바탕으로, 정해진 규칙 대로 수행하는 자동화 능력을 이용해 문제를 해결
-
문제 해결을 위한 데이터
-
-
편향
한쪽으로 치우치는 성질. 데이터 편향은 데이터가 특정 방향으로 치우치거나, 데이터 간 속성과의 관계를 균형 있게 고려하기 어려운 경우
-
데이터 선정하기
해결하고자 하는 문제와 관련 있는 데이터인지 확인, 데이터의 수집 가능성, 정보 보호 여부, 데이터의 품질, 데이터 수집 비용 등의 요인을 고려하여 조건에 부합하는 데이터를 선정해야 함
-
수집 가능성
수집할 방법이 없거나 수집하기 어려운 데이터는 피하고, 수집할 수 있는 데이터를 선정
-
-
-
데이터 수집하기
-
-
-
-
데이터셋
기업이나 공공기관에서 제공하는 데이터를 활용,
데이터 포털 등의 사이트 업로드 된 것 내려받아 활용
-
-
직접 데이터 수집
인터넷 검색 및 웹크롤링, 설문 조사, 인터뷰 결과 정리 등 데이터 정리,
피지컬 컴퓨팅 도구와 컴퓨팅 시스템, 웨어러블 기기 등을 이용해 센서를 통해 값을 수집
데이터 전처리와 핵심 속성 추출
데이터 전처리하기
-
-
-
결측치 처리하기
결측치가 있는 행이나 열을 삭제하는 방법과 평균, 중앙값, 최빈값 등의 대푯값으로 결측치를 대체하는 방법
-
핵심 속성 추출하기
데이터는 관찰이나 실험을 통해 수집되는 값, 하나의 데이터는 여러 개의 속성으로 구성되어 있다
-
-
핵심 속성 이해하기
문제해결에 필요한 속성을 핵심 속성이라고 한다. 만약 핵심 속성이 부족하다면, 추가 자료를 수집해야 한다
히트맵으로 핵심 속성 추출하기
시각화할 때 사용하는 도구에는 막대그래프, 히스토그램, 원그래프, 산점도, 히트맵 등이 있으며, 특히 핵심 속성을 추출할 때는 히트맵을 주로 사용한다
-
기계학습의 유형과 알고리즘
기계학습의 유형
데이터를 활용하는 방식에 따라 지도학습, 비지도학습, 강화학습으로 구분
-
-
-
기계학습 알고리즘의 이해
-
회귀(예측)
-
-
회귀 모델
훈련 데이터를 기반으로 독립 변수와 종속 변수 사이의 규칙을 파악하여 수식으로 나타내고, 학습된 규칙에 새로운 입력값을 대입하여 예측값을 얻어내는 모델
-
분류
미리 정의된 여러 범주로 데이터를 구분하기 위한 경계를 학습하여 새로운 입력이 들어오면 여러 범주 중 하나를 선택하는 과정, 지도학습의 한 형태
(데이터가 어떤 클래스에 속하는지 찾는 것)
-
-
-
-
군집
비지도학습 알고리즘의 일종으로, 데이터가 어떻게 그룸화되어야 하는지 미리 정의하지 않고 컴퓨터가 데이터 패턴을 스스로 찾아내는 방식
-
k-평균 알고리즘
임의의 군집 중심으로부터 가까운 거리에 있는 데이터를 같은 군집으로 할당하고, 군집의 중심을 변경되지 않을 때까지 계속 바꾸며 조정하는 방식으로 군집을 형성한다
딥러닝의 이해와 활용
인공신경망과 딥러닝
-
퍼셉트론
인공신경망을 실제로 구현한 연산 장치로서, 여러 개의 입력값을
처리하여 하나의 결괏값인 0 또는 1을 출력하는
인공신경망이 가장 작은 단위이다
단층 퍼셉트론
-
복잡한 문제를 처리하지 못하는 한계,
이를 해결하기 위해 은닉층을 새로 만들게 되었다
뉴런의 수상 돌기와 같이 데이터를 입력받고, 신경 세포체처럼 입력 받은 데이터를 처리하여 마지막 축삭 돌기에서 다른 뉴런으로 전기 신호를 보내듯이 데이터를 출력한다
-
-
다층 퍼셉트론
입력층, 은닉층, 출력층의 구조를 갖춘 인공신경망
입력층
외부로부터 데이터를 입력받는 층으로, 입력 데이터를 받아들여 다음 은닉층으로 값을 보낸다
-
-
가중치
출력값에 미치는 영향을 조정하는 변수로, 입력에 대한 가치를
의미한다
편향
측정값 또는 추정량의 분포 중심(평균값)과 참값과의 편차를 나타내는 것으로, 활성화 함수를 거쳐 출력되는 값을 조정하는 변수를 말한다
활성화 함수
출력할 값을 조정해 주는 함수로 계단 함수, 시그모이드 함수, 렐루 함수 등이 있다
딥러닝의 개념
딥러닝
-
-
-
과대적합
훈련 데이터의 성능 평가가 테스트 데이터의 성능 평가보다 높은 경우로, 딥러닝도 기계학습과 마찬가지로 지나친 학습에 의한 과대적합을 조심해야 한다. 많은 매개 변수와 과도한 학습 횟수는 딥러닝 모델의 과대적합을 불러올 수 있다
은닉층의 개수를 늘려 층을 깊게 설계할수록 더 복잡한 문제를
해결할 수 있지만, 층이 깊을수록 계산량이 많아져 학습이 오래 걸리고,
과대적합이 발생할 수도 있다
딥러닝의 학습 원리
딥러닝에서 '학습한다'라는 것은 가중치와 편향을 찾아가는 과정을 의미하며, 학습의 최종 목표는 최적의 가중치와 편향을 찾는 것이다
뉴런에서 다른 뉴런으로 전달되는 신호의 세기는 정보의 중요도에 따라 달라지는데, 이때 중요한 정보는 높은 가중치를 곱하여 전달하고, 반대의 경우에는 낮은 가중치를 곱하여 소멸시킨다
-
-
손실 함수
훈련 데이터를 잘 학습했는지 파악하는 함수로, 예측값과 실젯값(정답)과의 차이를 구하는 함수다
예측값과 실젯값이 일치할수록 손실함수의 값은 작아지므로, 손실함수의 값이 작을수록 학습이 잘된 좋은 모델이다
최적화
손실함수의 값이 최소가 되도록 가중치와 편향을 갱신하는 과정을 의미하며, 오차 역전파를 통해 이루어진다
-
-
순전파와 오차 역전파
순전파란 입력값이 입력층과 은닉층을 거쳐 출력층에 도달하기까지의 계산 과정을 말한다.
오차 역전파는 순전파의 반대 방향으로 출력층에서 시작하여 거꾸로 거슬러 올라가면서 가중치와 편향을 갱신하는 과정이다
이렇게 순전파와 오차 역전파를 반복하며 최적의 가중치와 편향을 찾아가는 과정을 '딥러닝의 학습' 이라고 한다
학습률
경사 하강법에서 어느 정도 이동할지, 가중치를 한 번에 얼마나 수정할지를 학습률이 결정한다. 학습률이 너무 크면 훈련 속도는 빠르지만 최적의 가중치를 건너뛸 수 있고, 학습률이 너무 작으면 훈련 속도가 느려지므로 적절한 학습률 설정이 필요하다
검증 데이터
딥러닝의 학습 과정에서 훈련 데이터의 일부를
검증 데이터로 활용할 수 있다
검증 데이터는 학습하는 중간에 모델의 성능을 평가하기
위해 활용되며, 이 과정은 최종 평가 전에 치르는
일종의 모의 평가에 비유 할 수 있다
딥러닝의 활용 분야
비정형 데이터를 다룰 때 좋은 성능을 내고 있으며, 기존의 기계 학습 알고리즘으로 다루기 어려웠던 분야에서 사용되면서 빠르게 발전하고 있다
실생활 속에서 딥러닝이 활용되는 예시
합성곱 신경망을 이용한 컴퓨터 비전, 순환 신경망을 이용한 음성 인식 및 자연어 처리 등이 있다
컴퓨터 비전
-
의료, 금융, 쇼핑 등의 다양한 산업에서 활용되는 것은 물론, 자율주행 자동차를 구현하는 핵심 기술 중 하나다
합성곱 신경망
동물의 시각 인지 과정을 모방한 인공신경망 모형 중 하나로, 사물의 탐지 등 이미지 처리에 높은 성능을 보여 준다
원래 이미지가 갖고 있던 데이터 구조 그대로, 즉 어떠한 형태의 변환 없이 2차원 배열의 입력 데이터를 사용한다
이미지의 생김새 그대로 학습하기 때문에, 이미지의 특성을 잘 추출할 수 있고, 이미지 분류, 사물 탐지, 이미지 분할 등의 컴퓨터 비전과 관련된 문제를 잘 해결할 수 있다
크게 합성곱 계층, 풀링 계층으로 구성되며, 두 계층을 반복하여 학습을 진행하면서 이미지의 특성을 추출한다
-
풀링 계층
-
합성곱 계층의 출력 데이터를 입력으로 받아 가로, 세로 방향의 공간을 줄이는 풀링 연산을 통해 출력 데이터의 크기를 줄이거나 특정 데이터를 강조한다
-
음성 인식과 자연어 처리
-
음성을 텍스트로 변환하는 음성 인식 기술과 변환된 텍스트를 분석하여 그 의미를 파악하는 자연어 처리 기술, 음성 인식을 위한 잡음 제거 및 소리 보정 기술, 음성을 텍스트로 변환하는 기술(STT) 등이 포함된다
-
순환 신경망
데이터 간의 관계나 순서가 중요한 순차적인 데이터를 입력받아 결과를 도출하는 딥러닝 모델로, 자연어 처리나 시간에 따라 변화하는 시계열 데잍어 등을 처리하는 데 주로 사용된다
다음 층으로 이어지는 중간 출력을 은닉 상태라고 하는데, 데이터의 중간 결과를 기억할 수 있다
-
-
-
-