관리 메뉴

Fintecuriosity

[강화학습] 상태 (State) 본문

Artificial Intelligence/강화학습

[강화학습] 상태 (State)

DataHolic26 2020. 9. 26. 14:32

 

 

 

이번 글의 내용은 '기초부터 시작하는 강화학습 / 신경망 알고리즘(손민규 지음, 위키북스 DS 시리즈)'의 내용을 참조 및 정리 하였으며 저의 개인적인 인사이트 또한 추가된 점을 먼저 밝힙니다.

 

 


 

 

 

[강화학습] 강화학습의 기본 요소

이번 글의 내용은 '기초부터 시작하는 강화학습 / 신경망 알고리즘(손민규 지음, 위키북스 DS 시리즈)'의 내용을 참조 및 정리 하였으며 저의 개인적인 인사이트 또한 추가된 점을 먼저 밝힙니다.

fintecuriosity-11.tistory.com

 

※ 예전 포스트에서는 강화학습은 5개의 요소로 구성이 되어있다고 말씀을 드렸습니다.

 

  1. 환경(Environment)
  2. 상태(State)
  3. 에이전트(Agent)
  4. 행동(Action)
  5. 보상(Reward)

 

그리고 바로 이전의 포스트에서는 5개의 요소 中 환경에 대하여 설명을 하였습니다.

 

 

 

[강화학습] 환경 (Environment)

이번 글의 내용은 '기초부터 시작하는 강화학습 / 신경망 알고리즘(손민규 지음, 위키북스 DS 시리즈)'의 내용을 참조 및 정리 하였으며 저의 개인적인 인사이트 또한 추가된 점을 먼저 밝힙니다.

fintecuriosity-11.tistory.com

 


 

 

이번 포스트에서는 5개 요소 中에서 상태(State)에 대해서 설명을 하도록 하겠습니다.

 

상태(State)는 강화학습에서 학습하는 주체가 위치하거나 감지하고 있는 상태의 정보를 말합니다. 즉 바둑게임, 체스게임에서는 바둑판, 체스의 현황이 상태가 될 것이며, 미로 탐색 문제에서는 로봇의 현재 위치가 상태가 되는 것입니다.

 

 

핵심: 

 


 

 

상태 S는 모든 상태의 집합으로, 아래와 같습니다.

 

 

 

 

 

위의 그림은 미로는 9개의 상태를 가지고 있으며, s0는 출발지점, s8은 도착지점을 나타냅니다. st는 시간 t 시점에서 에이전트가 위치한 상태를 나타냅니다.

 

 

 

 

긴 글 읽어주셔서 감사합니다.

 

 


 

[References]

 

[1] M. Son, "기초부터 시작하는 강화학습/신경망 알고리즘", 12-13 (2019) 

 

[2] Sutton, Richard S., and Andrew G. Barto. Reinforcement Learning: an Introduction. The MIT Press, 2018.