제목: Gradient Episodic Memory for Continual Learning

논문 출처: https://arxiv.org/pdf/2307.06962.pdf

Abstract

이전에 학습한 파라미터에 대해 유익한 방향으로의 학습을 허용하여 치명적 망각을 완화시키는 GEM(Gradient Episodic Memory)학습 모델의 제시

Introduction

어떤 데이터 훈련세트 $D_{tr} = \{(x_i , y_i )\}^n_{i=1}$ 에 대하여

$(x_i, y_i)$가 특징 벡터 $x_i \in X$와 대상 벡터 $y_i \in Y$라고 할 때 지도 학습 방법은 임의의 $(x_i, y_i)$가 단일 학습 작업을 설명하는 독립항등분포(iid) P의 샘플이라고 가정한다.

(iid: https://en.wikipedia.org/wiki/Independent_and_identically_distributed_random_variables)

감독 학습의 목표는 대상 벡터를 예측하는 데 사용되는 모델 $f : X \rarr Y$를 구성하는 것이고 . y는 보이지 않는 특징 벡터 x와 연관되며, 여기서 $(x, y) \sim P$. Empirical Risk Minimization(ERM)을 사용.

(ERM: https://process-mining.tistory.com/143)

ERM을 사용하면

$f$는 ${1}/{D_u} \sum_{(x_i, y_i) \in D_u}l(f(x_i)y_i)$, ( $l$ : Y x Y $\rarr[0, \infin)$는 예측 오류에 페널티를 주는 loss 함수).

ERM은 훈련세트에 대해 여러번 사용되는데,

사람은 학습할 때 순서대로 관찰하고, 동일한 예를 두번 관찰하지 않음 몇 가지 데이터만 기억하기 때문에 이전의 가정이 다른 학습과 관련이 됨

→ ERM을 적용하려고 할 때 iid의 가정에 어긋나게 되므로 이는 곳 치명적 망각(이전 작업에 영향)으로 이어짐