Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 공대생의언어학공부
- 경제용어
- 산업공학
- 확률기반자연어처리
- 공대생의전공공부
- 정보시스템
- 품질경영
- 컴퓨터공학
- 정보시스템설계및분석
- 자연어처리
- 일일경제공부
- 최적화문제
- 언어적지식
- 메타휴리스틱
- 공대생의산업공학공부
- 통계적품질관리
- 최적화기법
- 고전방법론
- 공대생의경제공부
- 영어영문학
- 공대생의문과공부
- 언어학
- 통계학
- 지적재산권
- 공대생의연구공부
- 국어국문학
- 특허
- 지식재산경영
- 인공지능
- 이공계를위한특허이해
Archives
- Today
- Total
목록완전기본개념강화학습 (1)
Fintecuriosity

이번 글의 내용은 '기초부터 시작하는 강화학습 / 신경망 알고리즘(손민규 지음, 위키북스 DS 시리즈)'의 내용을 참조 및 정리 하였으며 저의 개인적인 인사이트 또한 추가된 점을 먼저 밝힙니다. 먼저 강화학습을 들었을때 직관적으로 어떠한 생각이 들까요? 저같은 경우에 처음 '강화학습'이란 들었을 때 게임에서 아이템을 강화하는 것처럼 부족한 부분을 보완하는 것이라고 직관적으로 생각했습니다. 그러면 본론으로 돌아가면 강화학습에서는 보상(Reward)과 벌칙(Punishment)를 먼저 정의해야 합니다. 직접적으로 정답을 미리주는 것이 아니라, 어떤 상태에서 취한 행동이면 보상을 주고, 잘못된 행동이라면 벌칙을 주는 것입니다. 학습대상은 시행착오(trial-and-error)를 통해서 스스로 벌칙을 최소화하고..
Artificial Intelligence/강화학습
2020. 7. 8. 00:13