Please enable JavaScript.
Coggle requires JavaScript to display documents.
개념정리노트 - Coggle Diagram
개념정리노트
Q. 퍼셉트론에 대해서 설명해주세요.
A. 퍼셉트론이란 다수의 입력신호를 받아서 하나의 출력신호로 변환시켜주는 알고리즘을 말합니다.
Q. 퍼셉트론이 풀지 못하는 문제가 있는데 그 문제는 무엇이고 왜 풀지를 못하나요?
A. 문제는 XOR gate 문제로 해당 문제는 층을 쌓지 않은 단층 퍼셉트론으로는 해결할 수 없습니다.
Q. 그러면 층을 쌓으려면 어떤 방법을 사용해야 하나요?
A. 층을 쌓기 위해서는 활성화 함수로 비선형 함수를 사용해야 합니다.
Q. 왜 비선형 함수를 사용해야 하나요?
A. 비선형 함수를 사용하면 입력공간을 왜곡시켜서 새로운 feature 공간을 생성하게 되는데, 새로운 feature 공간에서 선형적으로 분리 가능한 결정 경계를 만들 기회를 얻을 수 있기 때문입니다.
참고링크1
Q. 비선형과 선형의 차이가 무엇인가요?
A. 가산성과 동차성을 만족하는 경우 선형 함수라고 부르며 둘 중 하나라도 만족하지 못하는 경우 비선형 함수라고 부릅니다.
가산성 : f(x+b) = f(x) + b
동차성 : f(ax) = af(x)
Q. 왜 선형함수를 사용하면 안되나요?
A. 선형 함수로 아무리 층을 쌓는다고 해도 결국 하나의 층과 동일하기 때문에 층을 쌓는 효과를 기대할 수 없습니다.
Q. 퍼셉트론의 구조에 대해서 설명해주세요.
A. 하나의 퍼셉트론은 입력값 벡터에 가중치 벡터를 내적한 후 편향 벡터를 더한 뒤 활성화 함수를 적용 시킨 구조입니다.
Q. 가중치 벡터와 편향 벡터가 하는 역할에 대해서 아시는대로 설명해주세요.
A. 가중치 벡터는 입력값 벡터를 받아서 다음 층에 결과를 보낼 때, 각 값들이 다음 층에 영향을 미치는 정도인
중요도
를 의미하고 편향 벡터는 노드가
활성화되는 정도를 조절하는 역할
을 합니다.
ai wiki
참고링크
Q. 가중치 벡터와 편향 벡터는 학습을 통하여 값이 변하는 파라미터인데 어떻게 학습이 이루어지나요?
A. 임의의 시작점에서 시작하여 Loss가 최소가 되는 방향으로 파라미터들을 갱신시켜서 최적의 파라미터를 찾는 최적화 기법인 Gradient Descent(경사하강법)을 사용합니다.
만약 파라미터와 loss의 관계를 나타내는 함수가 convex하고 local minimum이 존재하지 않는 경우 기울기가 0인 지점을 최적해를 가지는 지점이라고 부를 수 있습니다.
Q. 경사하강법의 수식에서 기울기를 빼주는 이유는 무엇인가요?
1 more item...
Q. 다층 퍼셉트론에서 기울기(gradient)는 어떻게 구하나요?
1 more item...
Q. local minimum이 문제가 되는 이유가 무엇인가요?
1 more item...
Q. 알고 있는 활성화 함수를 모두 알려주세요.
A. sigmoid, tanh, relu, weaky relu 등등
Q. sigmoid를 사용하지 않는 이유가 무엇인가요?
A. sigmoid 함수는 양 극값으로 갈수록 기울기가 0으로 수렴하는 saturation 하게 되면서 gradient vanishing 문제가 발생하기 때문입니다.
Q. sigmoid의 gradient vanishing 문제를 해결하는 방법이 무엇이 있나요?
1 more item...
Reference
참고링크
zero-centered
activation function
A. sigmoid 함수는 zero-centered 하지 않습니다. 이로 인하여 기울기는 항상 동일한 방향으로 업데이트 되고, 가중치는 zig-zag 한 방식으로 갱신되며 학습과정에 비효율성을 초래합니다.
Q. zero-centered 문제를 어떻게 해결해야 할까요?
2 more items...