시간차 학습 문서 원본 보기
←
시간차 학습
둘러보기로 이동
검색으로 이동
문서 편집 권한이 없습니다. 다음 이유를 확인해주세요:
요청한 명령은 다음 권한을 가진 사용자에게 제한됩니다:
사용자
.
문서의 원본을 보거나 복사할 수 있습니다.
{{위키데이터 속성 추적}} {{기계 학습}} '''시간차 학습'''({{Lang|en|Temporal difference learning}})은 예측 기반 [[기계 학습]]의 한 방법이다. 시간차 학습은 주로 [[강화 학습]] 문제에 사용되며, "[[몬테카를로 방법]]과 [[동적 계획법]]의 조합"이라고 불리기도 한다.<ref name="RSutton-1998">{{서적 인용|author1=Richard Sutton|author2=Andrew Barto|lastauthoramp=yes|title=Reinforcement Learning|publisher=MIT Press|year=1998|url=http://www.cs.ualberta.ca/~sutton/book/the-book.html|isbn=0-585-02445-6|확인날짜=2009년 9월 4일|보존url=https://web.archive.org/web/20090904160457/http://www.cs.ualberta.ca/~sutton/book/the-book.html|보존날짜=2009년 9월 4일|url-status=dead}}</ref> 이는 시간차 학습이 어떤 정책에 따라 환경을 [[표집]]하여 학습을 진행하는 몬테 카를로 방법의 특징과, 과거에 학습한 추정치를 사용하여 현재의 추정치를 구하는 동적 계획법의 특징을 지니고 있기 때문이다. 시간차 학습 알고리즘은 동물들의 시간차 학습 모델과도 관련이 있다.<ref name="WSchultz-1997">{{저널 인용|author=Schultz, W, Dayan, P & Montague, PR.|year=1997|title=A neural substrate of prediction and reward|journal=Science|volume=275|issue=5306|pages=1593–1599|doi=10.1126/science.275.5306.1593|pmid=9054347}}</ref> 시간차 학습은 이어지는 예측들이 어떤 식으로 관련되어 있다고 생각한다. 일반적인 예측 기반 [[지도 학습]]에서는 오직 실제로 관측된 값을 통해서만 학습이 이루어진다. 즉, 예측을 하고, 결과가 관측되면, 비로소 관측된 결과에 더 잘 부합하도록 예측 메커니즘이 수정된다. 리처드 서튼이 잘 설명하듯, 시간차 학습의 핵심 아이디어는 예측이 관측된 결과 뿐만이 아니라 미래에 대한 다른 예측에 잘 부합하도록 수정된다는 것이다.<ref name="RSutton-1988">{{저널 인용|author=Richard Sutton|title=Learning to predict by the methods of temporal differences|journal=Machine Learning|volume=3|issue=1|pages=9–44|year=1988|doi=10.1007/BF00115009}} (A revised version is available on [http://www.cs.ualberta.ca/~sutton/publications.html Richard Sutton's publication page] {{웹아카이브|url=https://web.archive.org/web/20090904154110/http://www.cs.ualberta.ca/~sutton/publications.html}})</ref> 이러한 과정은 부트스트랩이라고 불린다. 다음의 예시를 보자. : "당신이 토요일의 날씨를 예측하고 싶어한다고 해 보자. 그리고 당신은 주간 날씨 정보가 주어졌을 때 토요일의 날씨를 예측할 수 있는 어떤 모델을 가지고 있다고 하자. 일반적인 알고리즘의 경우에, 당신은 토요일까지 기다렸다가 당신의 모델을 한꺼번에 수정할 것이다. 그러나, 가령 금요일이 되었을 때, 당신은 이미 토요일의 날씨가 어떨지 대강 예측할 수 있을 것이다. 따라서 토요일이 되기 전에 월요일의 모델을 수정할 수 있게 될 것이다."<ref name="RSutton-1988" /> 수학적으로 말하면, 일반적인 알고리즘과 시간차 학습 알고리즘은 모두 어떤 [[확률 변수]] <math>z</math>의 기댓값 <math>\mathrm{E}(z)</math>에 대한 예측의 오차와 관련된 어떤 비용 함수(cost function)를 최적화하려 할 것이다. 그러나, 일반적인 알고리즘은 <math>\mathrm{E}(z)=z</math> (<math>z</math>는 관측치)라고 가정하는 반면, 시간차 학습은 어떤 모델을 사용한다. 특별히 시간차 학습이 주요하게 사용되는 강화 학습의 경우에는, 총 보상을 나타내는 <math>z</math>에 대하여, <math>\mathrm{E}(z)</math>는 보상에 대한 [[벨만 방정식]]으로 주어진다. == 수식 == <math>r_t</math>를 시간 <math>t</math>에 얻는 보상이라고 하자. <math>\bar{V_t}</math>를 미래에 주어질 모든 보상의 감가합(減價合, discounted sum)과 같은 올바른 예측이라고 하자. 감가는 감가인자 <math>\gamma</math>의 승수를 곱함으로써 이루어지며, 이를 통해 나중에 얻어지는 보상은 현재의 보상에 비해 덜 중요해진다. :<math>\bar{V_t} = \sum_{i=0}^{\infty} \gamma^i r_{t+i}</math> 이 때, <math>0\le\gamma<1</math>이다. 첨자 <math>i</math>를 1부터 시작하도록 식을 변형하면, :<math>\bar{V_t}=r_t + \sum_{i=1}^\infty \gamma^i r_{t+i}</math> 을 얻는다. 재차 변형하면, :<math>\bar{V_t}=r_t + \sum_{i=0}^\infty \gamma^{i+1}r_{t+i+1} = r_t + \gamma \sum_{i=0}^\infty \gamma^{i}r_{t+i+1} = r_t + \gamma \bar{V}_{t+1}</math> 을 얻는다. 따라서, 보상 <math>r_t</math>는 올바른 다음 예측과 현재의 예측의 차이이다. :<math>r_t = \bar{V_t} - \gamma \bar{V}_{t+1}</math> == 같이 보기 == * [[Q 러닝]] * [[레스콜라-와그너 모델]] * [[SARSA]] == 각주 == {{각주}} [[분류:계산신경과학]] [[분류:기계 학습 알고리즘]] [[분류:강화 학습]]
이 문서에서 사용한 틀:
틀:Lang
(
원본 보기
)
틀:각주
(
원본 보기
)
틀:기계 학습
(
원본 보기
)
틀:서적 인용
(
원본 보기
)
틀:웹아카이브
(
원본 보기
)
틀:위키데이터 속성 추적
(
원본 보기
)
틀:저널 인용
(
원본 보기
)
시간차 학습
문서로 돌아갑니다.
둘러보기 메뉴
개인 도구
로그인
이름공간
문서
토론
한국어
보기
읽기
원본 보기
역사 보기
더 보기
검색
둘러보기
대문
최근 바뀜
임의의 문서로
미디어위키 도움말
특수 문서 목록
도구
여기를 가리키는 문서
가리키는 글의 최근 바뀜
문서 정보