일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 일일경제공부
- 국어국문학
- 공대생의전공공부
- 최적화문제
- 지식재산경영
- 경제용어
- 품질경영
- 언어학
- 메타휴리스틱
- 확률기반자연어처리
- 고전방법론
- 통계학
- 특허
- 자연어처리
- 공대생의연구공부
- 언어적지식
- 인공지능
- 통계적품질관리
- 이공계를위한특허이해
- 산업공학
- 공대생의산업공학공부
- 공대생의문과공부
- 공대생의경제공부
- 컴퓨터공학
- 공대생의언어학공부
- 정보시스템설계및분석
- 지적재산권
- 영어영문학
- 정보시스템
- 최적화기법
- Today
- Total
Fintecuriosity
[강화학습] 강화학습의 기본 요소 본문
이번 글의 내용은 '기초부터 시작하는 강화학습 / 신경망 알고리즘(손민규 지음, 위키북스 DS 시리즈)'의 내용을 참조 및 정리 하였으며 저의 개인적인 인사이트 또한 추가된 점을 먼저 밝힙니다.
강화학습에 대하여 더욱 자세하게 이해하기 전에 먼저 구성하는 기본 요소들을 알아야 합니다.
강화학습의 기본요소는 위의 사진을 보시는 것처럼 5개가 있습니다.
1) 환경 (Environment)
환경은 강화학습을 이용해 풀고자 하는 대상이나 문제를 가리킵니다.
2) 상태 (State)
상태는 강화학습에서 학습하는 주체가 위치하거나 감지하고 있는 상태의 정보를 가리킵니다.
3) 에이전트 (Agent)
강화학습에서 환경에 대해 특정 행동을 하고 학습하는 프로그램이나 로봇을 에이전트라고 불릅니다. 에이전트는 주로 환경에 대해서 여러 가지 행동을 반복하면서 우리가 원하는 최적의 행동을 학습합니다.
4) 행동 (Action)
행동은 에이전트가 상태 (S)에서 할 수 있는 행동들을 가리킵니다.
5) 보상(Reward)
강화학습에서는 에이전트가 행동을 취하면 환경은 그 행동에 대해 좋고 나쁨을 평가하고 평가 결과를 수치화해서 즉각적으로 에이전트에게 전달합니다. 이처럼 에이전트가 취한 행동에 대해 환경으로부터 좋고 나쁨의 평가를 수치적으로 받는 것을 보상이라고 합니다.
긴 글 읽어주셔서 감사합니다.
References
[1] M. Son, "기초부터 시작하는 강화학습/신경망 알고리즘", 11-15 (2019)
[2] Sutton, Richard S., and Andrew G. Barto. Reinforcement Learning: an Introduction. The MIT Press, 2018.
'Artificial Intelligence > 강화학습' 카테고리의 다른 글
[강화학습] 상태 (State) (0) | 2020.09.26 |
---|---|
[강화학습] 환경 (Environment) (0) | 2020.09.26 |
[강화학습] 강화학습과 신경망 (0) | 2020.07.08 |
[강화학습] 강화학습 완전 기본개념 (0) | 2020.07.08 |
[강화학습] Introduction (0) | 2020.07.06 |