관리 메뉴

Fintecuriosity

[강화학습] 에이전트 (Agent) 본문

Artificial Intelligence/강화학습

[강화학습] 에이전트 (Agent)

DataHolic26 2020. 9. 28. 23:01

 

 

이번 글의 내용은 '기초부터 시작하는 강화학습 / 신경망 알고리즘(손민규 지음, 위키북스 DS 시리즈)'의 내용을 참조 및 정리 하였으며 저의 개인적인 인사이트 또한 추가된 점을 먼저 밝힙니다.

 

 


 

 

 

[강화학습] 강화학습의 기본 요소

이번 글의 내용은 '기초부터 시작하는 강화학습 / 신경망 알고리즘(손민규 지음, 위키북스 DS 시리즈)'의 내용을 참조 및 정리 하였으며 저의 개인적인 인사이트 또한 추가된 점을 먼저 밝힙니다.

fintecuriosity-11.tistory.com

 

 

※ 이전 포스트에서는 강화학습은 5개의 요소로 구성이 되어있다고 말씀을 드렸습니다.

 

  1. 환경(Environment)
  2. 상태(State)
  3. 에이전트(Agent)
  4. 행동(Action)
  5. 보상(Reward)

 

그리고 바로 이전의 포스트에서는 5개의 요소 中 환경, 상태에 대하여 설명을 하였습니다.

 

 

 

[강화학습] 환경 (Environment)

이번 글의 내용은 '기초부터 시작하는 강화학습 / 신경망 알고리즘(손민규 지음, 위키북스 DS 시리즈)'의 내용을 참조 및 정리 하였으며 저의 개인적인 인사이트 또한 추가된 점을 먼저 밝힙니다.

fintecuriosity-11.tistory.com

 

 

 

 

[강화학습] 상태 (State)

이번 글의 내용은 '기초부터 시작하는 강화학습 / 신경망 알고리즘(손민규 지음, 위키북스 DS 시리즈)'의 내용을 참조 및 정리 하였으며 저의 개인적인 인사이트 또한 추가된 점을 먼저 밝힙니다.

fintecuriosity-11.tistory.com

 

 


 

 

이번 포스트에서는 5개 요소 中에서 에이전트(Agent)에 대해서 설명을 하도록 하겠습니다.

 

강화학습에서 환경에 대해 특정 행동을 하고 학습하는 프로그램이나 로봇을 에이전트(Agent)라고 합니다. 

 

 


 

 

위의 사진은 스타크래프트 2에서 가져왔습니다. 게임 스타크래프트에서 각각의 유닛들은 에이전트에 해당하게 되고, 이 각각 유닛들은 환경(즉 진행되는 게임)안에서 행동을 반복하고 원하는 최적의 행동을 학습하게 되는 것입니다.

 

에이전트는 환경에 대해 여러 가지 행동을 반복하면서 우리가 원하는 최적의 행동을 학습합니다. 로봇과 같은 객체로 자주 표현되지만 자동 주식 트레이딩 프로그램이나 알파고도 에이전트에 해당합니다.

 

 

 

 

 

긴 글 읽어주셔서 감사합니다.

 

 


 

[References]

 

[1] M. Son, "기초부터 시작하는 강화학습/신경망 알고리즘", 12-13 (2019) 

 

[2] Sutton, Richard S., and Andrew G. Barto. Reinforcement Learning: an Introduction. The MIT Press, 2018.

 

[3] Vinyals, O., Babuschkin, I., Czarnecki, W.M. et al. Grandmaster level in StarCraft II using multi-agent reinforcement learning. Nature 575, 350–354 (2019).