관리 메뉴

Fintecuriosity

[강화학습] 강화학습의 기본 요소 본문

Artificial Intelligence/강화학습

[강화학습] 강화학습의 기본 요소

DataHolic26 2020. 7. 21. 01:49

이번 글의 내용은 '기초부터 시작하는 강화학습 / 신경망 알고리즘(손민규 지음, 위키북스 DS 시리즈)'의 내용을 참조 및 정리 하였으며 저의 개인적인 인사이트 또한 추가된 점을 먼저 밝힙니다.

 


 

강화학습에 대하여 더욱 자세하게 이해하기 전에 먼저 구성하는 기본 요소들을 알아야 합니다.

 

 

강화학습의 기본요소는 위의 사진을 보시는 것처럼 5개가 있습니다.

 

1) 환경 (Environment)

환경은 강화학습을 이용해 풀고자 하는 대상이나 문제를 가리킵니다.

 

2) 상태 (State) 

상태는 강화학습에서 학습하는 주체가 위치하거나 감지하고 있는 상태의 정보를 가리킵니다.

 

3) 에이전트 (Agent)

강화학습에서 환경에 대해 특정 행동을 하고 학습하는 프로그램이나 로봇을 에이전트라고 불릅니다. 에이전트는 주로 환경에 대해서 여러 가지 행동을 반복하면서 우리가 원하는 최적의 행동을 학습합니다.

 

4) 행동 (Action)

행동은 에이전트가 상태 (S)에서 할 수 있는 행동들을 가리킵니다.

 

5) 보상(Reward)

강화학습에서는 에이전트가 행동을 취하면 환경은 그 행동에 대해 좋고 나쁨을 평가하고 평가 결과를 수치화해서 즉각적으로 에이전트에게 전달합니다. 이처럼 에이전트가 취한 행동에 대해 환경으로부터 좋고 나쁨의 평가를 수치적으로 받는 것을 보상이라고 합니다.

 

 

긴 글 읽어주셔서 감사합니다.


References

 

[1] M. Son, "기초부터 시작하는 강화학습/신경망 알고리즘", 11-15 (2019) 

 

[2] Sutton, Richard S., and Andrew G. Barto. Reinforcement Learning: an Introduction. The MIT Press, 2018.