일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 확률기반자연어처리
- 특허
- 일일경제공부
- 공대생의언어학공부
- 공대생의산업공학공부
- 자연어처리
- 최적화문제
- 영어영문학
- 언어학
- 고전방법론
- 지식재산경영
- 공대생의전공공부
- 산업공학
- 지적재산권
- 최적화기법
- 정보시스템설계및분석
- 공대생의경제공부
- 통계학
- 컴퓨터공학
- 이공계를위한특허이해
- 정보시스템
- 인공지능
- 품질경영
- 국어국문학
- 메타휴리스틱
- 공대생의문과공부
- 통계적품질관리
- 공대생의연구공부
- 언어적지식
- 경제용어
- Today
- Total
목록Artificial Intelligence/강화학습 (7)
Fintecuriosity

이번 글의 내용은 '기초부터 시작하는 강화학습 / 신경망 알고리즘(손민규 지음, 위키북스 DS 시리즈)'의 내용을 참조 및 정리 하였으며 저의 개인적인 인사이트 또한 추가된 점을 먼저 밝힙니다. [강화학습] 강화학습의 기본 요소 이번 글의 내용은 '기초부터 시작하는 강화학습 / 신경망 알고리즘(손민규 지음, 위키북스 DS 시리즈)'의 내용을 참조 및 정리 하였으며 저의 개인적인 인사이트 또한 추가된 점을 먼저 밝힙니다. fintecuriosity-11.tistory.com ※ 이전 포스트에서는 강화학습은 5개의 요소로 구성이 되어있다고 말씀을 드렸습니다. 환경(Environment) 상태(State) 에이전트(Agent) 행동(Action) 보상(Reward) 그리고 바로 이전의 포스트에서는 5개의 요소..

이번 글의 내용은 '기초부터 시작하는 강화학습 / 신경망 알고리즘(손민규 지음, 위키북스 DS 시리즈)'의 내용을 참조 및 정리 하였으며 저의 개인적인 인사이트 또한 추가된 점을 먼저 밝힙니다. [강화학습] 강화학습의 기본 요소 이번 글의 내용은 '기초부터 시작하는 강화학습 / 신경망 알고리즘(손민규 지음, 위키북스 DS 시리즈)'의 내용을 참조 및 정리 하였으며 저의 개인적인 인사이트 또한 추가된 점을 먼저 밝힙니다. fintecuriosity-11.tistory.com ※ 예전 포스트에서는 강화학습은 5개의 요소로 구성이 되어있다고 말씀을 드렸습니다. 환경(Environment) 상태(State) 에이전트(Agent) 행동(Action) 보상(Reward) 그리고 바로 이전의 포스트에서는 5개의 요소..

이번 글의 내용은 '기초부터 시작하는 강화학습 / 신경망 알고리즘(손민규 지음, 위키북스 DS 시리즈)'의 내용을 참조 및 정리 하였으며 저의 개인적인 인사이트 또한 추가된 점을 먼저 밝힙니다. [강화학습] 강화학습의 기본 요소 이번 글의 내용은 '기초부터 시작하는 강화학습 / 신경망 알고리즘(손민규 지음, 위키북스 DS 시리즈)'의 내용을 참조 및 정리 하였으며 저의 개인적인 인사이트 또한 추가된 점을 먼저 밝힙니다. fintecuriosity-11.tistory.com ※ 지난 포스트에서는 강화학습은 5개의 요소로 구성이 되어있다고 말씀을 드렸습니다. 환경(Environment) 상태(State) 에이전트(Agent) 행동(Action) 보상(Reward) 이번 포스트에서는 5개 요소 中에서 환경(E..

이번 글의 내용은 '기초부터 시작하는 강화학습 / 신경망 알고리즘(손민규 지음, 위키북스 DS 시리즈)'의 내용을 참조 및 정리 하였으며 저의 개인적인 인사이트 또한 추가된 점을 먼저 밝힙니다. 강화학습에 대하여 더욱 자세하게 이해하기 전에 먼저 구성하는 기본 요소들을 알아야 합니다. 강화학습의 기본요소는 위의 사진을 보시는 것처럼 5개가 있습니다. 1) 환경 (Environment) 환경은 강화학습을 이용해 풀고자 하는 대상이나 문제를 가리킵니다. 2) 상태 (State) 상태는 강화학습에서 학습하는 주체가 위치하거나 감지하고 있는 상태의 정보를 가리킵니다. 3) 에이전트 (Agent) 강화학습에서 환경에 대해 특정 행동을 하고 학습하는 프로그램이나 로봇을 에이전트라고 불릅니다. 에이전트는 주로 환경에..

이번 글의 내용은 '기초부터 시작하는 강화학습 / 신경망 알고리즘(손민규 지음, 위키북스 DS 시리즈)'의 내용을 참조 및 정리 하였으며 저의 개인적인 인사이트 또한 추가된 점을 먼저 밝힙니다. 강화학습의 아이디어를 더 쉽게 설명을 하면 스키너 상자 실험의 예가 있습니다. 레버를 누르면 먹이가 나오는 상자 안에 비둘기를 넣은 후, 비둘기를 관찰하는 스키너 상자 실험을 한 스키너는 처음에는 레버와 먹이와의 관계를 모르던 비둘기가 지속적으로 나오는 먹이를 보면서 원리는 이해하지 못하였지만 레버를 누를 경우에 먹이가 계속 나온다는 의식이 강화되는 것을 파악하였습니다. 이 실험에서 강화란 어떤 지속적인 자극에 의한 반응 점차적으로 강해지거나 약해지는 것을 의미합니다. 스키너 상자 실험의 예는 주로 심리학에서 많..

이번 글의 내용은 '기초부터 시작하는 강화학습 / 신경망 알고리즘(손민규 지음, 위키북스 DS 시리즈)'의 내용을 참조 및 정리 하였으며 저의 개인적인 인사이트 또한 추가된 점을 먼저 밝힙니다. 먼저 강화학습을 들었을때 직관적으로 어떠한 생각이 들까요? 저같은 경우에 처음 '강화학습'이란 들었을 때 게임에서 아이템을 강화하는 것처럼 부족한 부분을 보완하는 것이라고 직관적으로 생각했습니다. 그러면 본론으로 돌아가면 강화학습에서는 보상(Reward)과 벌칙(Punishment)를 먼저 정의해야 합니다. 직접적으로 정답을 미리주는 것이 아니라, 어떤 상태에서 취한 행동이면 보상을 주고, 잘못된 행동이라면 벌칙을 주는 것입니다. 학습대상은 시행착오(trial-and-error)를 통해서 스스로 벌칙을 최소화하고..

이번 글의 내용은 '기초부터 시작하는 강화학습 / 신경망 알고리즘(손민규 지음, 위키북스 DS 시리즈)'의 내용을 참조 및 정리 하였으며 저의 개인적인 인사이트 또한 추가된 점을 먼저 밝힙니다. 강화학습(Reinforcement Learning)은 한국의 바둑기사 이세돌 9단과 알파고의 대국 사건을 통하여 잘 알려지게 되었습니다. 2016년 3월, 이세돌 9단과 구글의 DeepMind에서 개발한 알파고 인공지능이 대국을 한다는 소식은 AI Researcher 뿐만 아니라 모든 전 세계 사람들의 주목을 한 눈에 받았습니다. 그리고 이 바둑(Go)이라는 게임은 엄청난 전략을 요하는 게임인 것은 한국, 중국 및 아니 모든 나라 사람들이 아는 자명한 사실일 것입니다. 하지만 알파고가 이세돌 9단을 이길 것이라는..