딥러닝 주요 개념 간략 정리

Nov 01, 2023

Contents

10.1 인공 신경망 10.2 합성곱 신경망(convolutional neural network, CNN)10.3 성능 향상을 위한 딥러닝 알고리즘

10.1 인공 신경망

인간의 생물학적 신경망과 유사한 구조를 갖는 인공 시스템

사람 뇌의 기본 단위 뉴런 구조에서 영감을 얻음

가지돌기 → 축삭돌기 → 축삭 말단
신호가 특정 값을 넘으면 잘 전달되고, 특정 값 이하면 전달되지 않음
뉴런 = 신호를 입력에서 출력으로 전달하는 역할

10.1.1 퍼셉트론

뉴런의 원리를 본떠 만든 인공 구조

여러 입력값을 받아 특정 값을 출력함

입력값(x1,x2,x3)과 가중치(w1,w2,w3)을 곱함

곱한 값들의 총합을 구함

총합이 0을 넘으면 1, 넘지 않으면 0을 출력

3번 단계에서 0 초과 여부에 따라 출력값을 결정하는 역할 = 활성화 함수

활성화 함수는 입력값을 최종적으로 어떤 값으로 변환해 출력할지 결정해줌

퍼셉트론은 입력값, 가중치, 활성화 함수로 이루어진 구조

훈련(또는 학습) : 원하는 출력값을 내보내도록 가중치를 조정해가는 작업

단순 퍼셉트론은 선형 분류 문제만 해결 할 수 있다는 한계점이 있음

⇒ 퍼셉트론을 여러 층으로 쌓아 다층 퍼셉르론을 통해 비선형 분류 문제를 해결 가능

10.1.2 신경망

신경망은 입력층, 은닉층(중간층), 출력층으로 구성

10.1.3 활성화 함수(activation funcion)

입력값을 어떤 값으로 변환해 출력할지 결정하는 함수

대표적인 활성화 함수로 시그모이드 함수와 ReLU 함수가 있음

시그모이드 함수

S자 곡선을 그리는 수학 함수

ReLU 함수

입력값이 0보다 크면 입력값을 그대로 출력하고, 0 이하이면 0 을 출력
활성화 함수로 시그모이드보다 대체로 성능이 좋아서 많이 활용됨

Leaky ReLU 함수

ReLU를 약간 변형한 함수로, 자주 쓰임
입력값이 음수일 때, 약간의 음숫값을 살려둠

10.1.4 경사 하강법(Gradient Descent)

신경망 훈련의 목표 ⇒ 최적 파라미터(가중치와 편향)을 찾는 것

최적 파라미터 = 손실 함수가 최솟값일 때의 파라미터

손실 함수(loss function)

모델 성능이 얼마나 나쁜지를 측정하는 함수
모델로 예측한 값과 실젯값 차이를 구하는 함수
함수 값이 작을 수록 좋은 모델
대표적으로 평균 제곱 오차(Mean Squared Error, MSE)와 교차 엔트로피(Cross Entropy)가 있음

매 훈련마다 손실값이 줄어드는 방향으로 파라미터를 갱신하여 찾게 됨

💡

경사 하강법의 일반적인 절차 1. 현재 위치에서 기울기(경사)를 구함 2. 기울기 아래 방향으로 일정거리(학습률)를 이동함. 3. 손실 함수가 최소가 될 때까지, 즉 기울기가 0이 될 때까지 1~2단계를 반복함

학습률(Learning Rate)

기울기 방향으로 얼만큼 이동할지 결정하는 값
학습률이 가중치를 한 번에 얼마나 갱신할지 결정하는 값
학습률에 따라 훈련 속도가 달라짐

학습률이 너무 크면 훈련 속도는 빠르지만, 최적 가중치를 찾지 못할 수 있음
학습률 이 너무 작으면 훈련 속도가 느려짐

보통 0.1~0.0001 범위의 값을 사용함

미니배치 경하 하강법

데이터를 미니배치 단위로 무작위로 추출해 경사 하강법을 수행
데이터 여러 개를 한 묶음으로 처리하므로 더 효율적

순전파(forward propagation)

입력값이 입력층 → 은닉층 → 출력층 도달하는 계산 과정
각 층을 통과할 떄마다 입력값에 가중치를 곱해 다음 층으로 출력값을 계산

역전파(back propagation)

순전파의 반대 개념

💡

신경망 훈련 절차 1. 순전파를 진행하여 입력값으로부터 출력값(타깃 예측값)을 계산함 2. 순전파로 구한 타깃 예측값과 실제 타깃값의 차이 (손실)을 구함 3. 손실값을 줄이는 방향으로 가중치의 기울기를 구함 = 경사하강법 4. 기울기를 바탕으로 가중치를 갱신, 출력층 → 입력층 방향으로 차례로 가중치 갱신 5. 1~4단계 반복

10.2 합성곱 신경망(convolutional neural network, CNN)

컴퓨터 비전 분야에서 주로 쓰이는 신경망

다음과 같이 여러 구조가 모여 구성됨

10.2.1 합성곱 계층(convolutional layer)

합성곱으로 이루어진 신경망 계층

합성곱(convolution)

2차원 데이터의 일정 영역 내 값들을 하나의 값으로 압축하는 연산
전체 영역에서 중요한 특징만 추출하는 효과
합성곱 연산에는 필터가 필요함

필터(filter)

입력 데이터에서 특정한 특성을 필터링하는 역할
특정 특성을 부각시키거나 약화시키는 등의 변화를 줌
요소별, 특징별 특성을 가져오는 역할

합성곱 연산 과정

서로 대응하는 행과 열에 적힌 숫자끼리 곱한 뒤 모두 더해줌

특성 맵, 피처 맵(feature map)

합성곱 연산의 결과
중요한 특징만 남아있게 된 결과
필터의 패턴과 일치하는 영역일 수록 숫자가 큼

합성곱 계층에서는 보통 여러 특성을 추출하기 위해 여러 필터를 사용함

10.2.2 패딩과 스트라이드

4X4 크기의 입력 데이터에 3X3 크기의 필터를 적용하면 2X2의 피처맵이 만들어 짐

합성곱 연산은 데이터의 크기를 줄이게 되고, 여러 번 반복하면 더 이상 합성곱 연산을 적용하지 못함

입력 데이터 크기를 좀 더 키우면 해결 가능

패딩(padding)

입력 주변 데이터 주변을 특정 값으로 채워 입력 데이터 크기를 키우는 방법
보통 0으로 채움

스트라이드(stride)

합성곱 연산을 수행할 때 한 번에 이동하는 간격의 크기
스트라이드를 크게 설정하면 패처맵의 크기가 줄어듬

10.2.3 풀링(pooling)

특성 맵 크기를 줄여 이미지의 요약 정보를 추출하는 기능

합성곱과 다르게 필터가 필요 없음

특정 영역에서 최댓값이나 평균값을 가져와 요약 정보를 구하기 때문

풀링의 목적

특성 맵 크기를 줄여 연산속도를 빠르게 하기 위함
이미지에서 물체의 위치가 바뀌어도 같은 물체로 인식하기 위해

합성곱 연산은 물체 위치가 바뀌면 같은 물체로 인식하지 못함
풀링은 특정 영역의 요약 정보(대푯값)을 가져와서 위치가 약간 변해도 같은 물체로 판단함 = 위치 불변성(location invariance)

대표적으로 최대 풀링과 평균 풀링이 있음

최대 풀링

풀링 영역에서 가장 큰 값을 취하는 방법
특정 영역에서 가장 뚜렷한(밝은) 부분 추출

평균 풀링

풀링 영역의 평균값을 구하는 방법
특정 영역의 평균적인 특징 추출

10.2.4 전결합(fully-connected)

이전 계층의 모든 노드 각각이 다음 계층의 노드 전부와 연결된 결합

전결합 계층(fully-connected layer) 또는 밀집 계층(dense layer)

전결합으로 구성된 계층
CNN에서는 보통 마지막 부분에서 구현함

앞의 합성곱과 풀링 계층이 이미지에서 특징을 뽑아내면 전결합 계층은 이 특성을 활용해 특정한 레이블로 분류하는 역할을 함

평탄화

합성곱 계층과 풀링 계층을 거친 2차원 데이터는 1차원으로 바꾼 뒤 전결합을 적용

평탄화한 1차원 데이터를 최종 출력값과 전결합하지 않고, 전결합 계층을 여러 개 만드는 이유?

분류를 더 효율적으로 하기 위해

10.2.5 합성곱 신경망 전체 구조

입력 데이터는 배치크기, 가로 픽셀 수, 세로 픽셀수 , 색상(채널 값)로 4차원 데이터를 다루게 됨

10.3 성능 향상을 위한 딥러닝 알고리즘

10.3.1 드롭아웃(dropout)

과적합을 방지하기 위해 신경망 훈련 과정에서 무작위로 일부 뉴런을 제외하는 기법

매 훈련 이터레이션마다 새롭게 적용

매 훈련마다 서로 다른 신경망을 훈련하는 꼴
여러 모델을 훈련하여 결과를 취합하는 앙상블 학습과 유사

드롭아웃 비율 0.2로 설정하면 전체의 20% 뉴런을 제외하게 됨

10.3.2 배치 정규화(batch normalization)

과적합 방지와 훈련 속도 향상을 위한 기법

내부 공변량 변화(internal covariate shift)를 해결하기 위한 기법

신경망 계층마다 입력 데이터 분포가 다른 현상

데이터가 정규분포(평균0, 분산1)을 따르도록 분포를 변환하는 작업

10.3.3 옵티마이저(optimizer)

신경망의 최적 가중치를 찾아주는 알고리즘

10.1.4의 경사 하강법(SGD)이 대표적인 예

모멘텀(Momentum)

SGD에 물리학의 관성 개념을 추가
이전 단계의 진행 방향을 기억하여 일정 비율로 현 단계에 반영

지그재그 폭이 줄어드는 효과 → 더 빠르게 최적 파라미터에 수렴

Adagrad

최적 파라미터에 도달할수록 학습률을 낮추도록 한 옵티마이저
적응적 학습률(adaptive learning rate)

최적점에서 멀 때는 학습률을 크게 잡아 빠르게 수렴
최적점에서 가까울 때는 학습률을 낮춰 최적점을 지나치지 않도록 함

RMSProp

Adagrad의 단점을 보완한 방법

훈련이 진행될 수록 학습률이 낮아져 0에 가까워져, 가중치 갱신이 되지 않음

적응적 학습률을 활용하지만, 최근 기울기만 고려해 학습률을 낮추는 방법
훈련을 오래 지속해도 학습률이 0에 수렴하지 않음

Adam

딥러닝 모델을 설계할 때 가장 많이 사용하는 옵티마이저
Momentum과 RMSProp의 장점을 결합한 방법

관성을 이용하며, 적응적 학습률을 적용함

10.3.4 전이 학습(transfer learning)

한 영역에서 사전 훈련된 모델(pretrained model)에 약간의 추가 학습을 더해 유사한 다른 영역에서도 활용하는 기법

처음 훈련하는 것보다 적은 데이터로 훨씬 빠르게 높은 성능치에 도달할 수 있음

전이 학습의 종류

신경망 전체를 다시 훈련하는 파인튜닝(fine tuning)
일부 계층만 다시 훈련하는 방법