일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 최적화문제
- 정보시스템
- 정보시스템설계및분석
- 지적재산권
- 국어국문학
- 특허
- 자연어처리
- 산업공학
- 통계학
- 언어학
- 공대생의연구공부
- 메타휴리스틱
- 공대생의전공공부
- 확률기반자연어처리
- 컴퓨터공학
- 공대생의산업공학공부
- 공대생의경제공부
- 일일경제공부
- 품질경영
- 통계적품질관리
- 언어적지식
- 최적화기법
- 공대생의언어학공부
- 지식재산경영
- 영어영문학
- 공대생의문과공부
- 경제용어
- 고전방법론
- 이공계를위한특허이해
- 인공지능
- Today
- Total
Fintecuriosity
[강화학습] 에이전트 (Agent) 본문
이번 글의 내용은 '기초부터 시작하는 강화학습 / 신경망 알고리즘(손민규 지음, 위키북스 DS 시리즈)'의 내용을 참조 및 정리 하였으며 저의 개인적인 인사이트 또한 추가된 점을 먼저 밝힙니다.
※ 이전 포스트에서는 강화학습은 5개의 요소로 구성이 되어있다고 말씀을 드렸습니다.
- 환경(Environment)
- 상태(State)
- 에이전트(Agent)
- 행동(Action)
- 보상(Reward)
그리고 바로 이전의 포스트에서는 5개의 요소 中 환경, 상태에 대하여 설명을 하였습니다.
이번 포스트에서는 5개 요소 中에서 에이전트(Agent)에 대해서 설명을 하도록 하겠습니다.
강화학습에서 환경에 대해 특정 행동을 하고 학습하는 프로그램이나 로봇을 에이전트(Agent)라고 합니다.
위의 사진은 스타크래프트 2에서 가져왔습니다. 게임 스타크래프트에서 각각의 유닛들은 에이전트에 해당하게 되고, 이 각각 유닛들은 환경(즉 진행되는 게임)안에서 행동을 반복하고 원하는 최적의 행동을 학습하게 되는 것입니다.
에이전트는 환경에 대해 여러 가지 행동을 반복하면서 우리가 원하는 최적의 행동을 학습합니다. 로봇과 같은 객체로 자주 표현되지만 자동 주식 트레이딩 프로그램이나 알파고도 에이전트에 해당합니다.
긴 글 읽어주셔서 감사합니다.
[References]
[1] M. Son, "기초부터 시작하는 강화학습/신경망 알고리즘", 12-13 (2019)
[2] Sutton, Richard S., and Andrew G. Barto. Reinforcement Learning: an Introduction. The MIT Press, 2018.
[3] Vinyals, O., Babuschkin, I., Czarnecki, W.M. et al. Grandmaster level in StarCraft II using multi-agent reinforcement learning. Nature 575, 350–354 (2019).
'Artificial Intelligence > 강화학습' 카테고리의 다른 글
[강화학습] 상태 (State) (0) | 2020.09.26 |
---|---|
[강화학습] 환경 (Environment) (0) | 2020.09.26 |
[강화학습] 강화학습의 기본 요소 (0) | 2020.07.21 |
[강화학습] 강화학습과 신경망 (0) | 2020.07.08 |
[강화학습] 강화학습 완전 기본개념 (0) | 2020.07.08 |