Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
Tags
- 통계학
- 공대생의언어학공부
- 일일경제공부
- 공대생의연구공부
- 정보시스템
- 품질경영
- 인공지능
- 통계적품질관리
- 확률기반자연어처리
- 컴퓨터공학
- 고전방법론
- 이공계를위한특허이해
- 공대생의문과공부
- 최적화기법
- 특허
- 언어학
- 메타휴리스틱
- 지식재산경영
- 공대생의경제공부
- 공대생의산업공학공부
- 경제용어
- 국어국문학
- 최적화문제
- 언어적지식
- 공대생의전공공부
- 영어영문학
- 정보시스템설계및분석
- 자연어처리
- 지적재산권
- 산업공학
Archives
- Today
- Total
Fintecuriosity
[강화학습] 상태 (State) 본문
이번 글의 내용은 '기초부터 시작하는 강화학습 / 신경망 알고리즘(손민규 지음, 위키북스 DS 시리즈)'의 내용을 참조 및 정리 하였으며 저의 개인적인 인사이트 또한 추가된 점을 먼저 밝힙니다.
※ 예전 포스트에서는 강화학습은 5개의 요소로 구성이 되어있다고 말씀을 드렸습니다.
- 환경(Environment)
- 상태(State)
- 에이전트(Agent)
- 행동(Action)
- 보상(Reward)
그리고 바로 이전의 포스트에서는 5개의 요소 中 환경에 대하여 설명을 하였습니다.
이번 포스트에서는 5개 요소 中에서 상태(State)에 대해서 설명을 하도록 하겠습니다.
상태(State)는 강화학습에서 학습하는 주체가 위치하거나 감지하고 있는 상태의 정보를 말합니다. 즉 바둑게임, 체스게임에서는 바둑판, 체스의 현황이 상태가 될 것이며, 미로 탐색 문제에서는 로봇의 현재 위치가 상태가 되는 것입니다.
핵심:
상태 S는 모든 상태의 집합으로, 아래와 같습니다.
위의 그림은 미로는 9개의 상태를 가지고 있으며, s0는 출발지점, s8은 도착지점을 나타냅니다. st는 시간 t 시점에서 에이전트가 위치한 상태를 나타냅니다.
긴 글 읽어주셔서 감사합니다.
[References]
[1] M. Son, "기초부터 시작하는 강화학습/신경망 알고리즘", 12-13 (2019)
[2] Sutton, Richard S., and Andrew G. Barto. Reinforcement Learning: an Introduction. The MIT Press, 2018.
'Artificial Intelligence > 강화학습' 카테고리의 다른 글
[강화학습] 에이전트 (Agent) (0) | 2020.09.28 |
---|---|
[강화학습] 환경 (Environment) (0) | 2020.09.26 |
[강화학습] 강화학습의 기본 요소 (0) | 2020.07.21 |
[강화학습] 강화학습과 신경망 (0) | 2020.07.08 |
[강화학습] 강화학습 완전 기본개념 (0) | 2020.07.08 |