관리 메뉴

Fintecuriosity

[강화학습] 환경 (Environment) 본문

Artificial Intelligence/강화학습

[강화학습] 환경 (Environment)

DataHolic26 2020. 9. 26. 14:15

 

이번 글의 내용은 '기초부터 시작하는 강화학습 / 신경망 알고리즘(손민규 지음, 위키북스 DS 시리즈)'의 내용을 참조 및 정리 하였으며 저의 개인적인 인사이트 또한 추가된 점을 먼저 밝힙니다.

 

 


 

 

 

 

 

[강화학습] 강화학습의 기본 요소

이번 글의 내용은 '기초부터 시작하는 강화학습 / 신경망 알고리즘(손민규 지음, 위키북스 DS 시리즈)'의 내용을 참조 및 정리 하였으며 저의 개인적인 인사이트 또한 추가된 점을 먼저 밝힙니다.

fintecuriosity-11.tistory.com

 

※ 지난 포스트에서는 강화학습은 5개의 요소로 구성이 되어있다고 말씀을 드렸습니다.

 

  1. 환경(Environment)
  2. 상태(State)
  3. 에이전트(Agent)
  4. 행동(Action)
  5. 보상(Reward)

 


 

이번 포스트에서는 5개 요소 中에서 환경(Environment)에 대해서 설명을 하도록 하겠습니다.

 

환경은 강화학습을 사용하여 풀고자 하는 대상이나 문제를 말합니다. 우리도 일상생활에서 항상 어떠한 문제에 직면을 하고 이러한 상황(문제)를 해결하려고 합니다. 여기서 환경을 조금 더 쉽게 표현하자면 우리에게 주어진 상황이라고도 이해를 할 수 있겠습니다.

 

 

핵심: 우리에게 주어진 환경(상황)을 강화학습을 이용하여 푸는 것이라고 생각하면 되겠습니다.

 

 

그러면 이제 실제의 예를 들자면, 로봇 미로 탐색 문제라면 미로가 환경이 되는 것이고, 자동 주식 트레이딩을 하고 싶다고 하면 주식시장이 환경이 되며, 알파고 같은 인공지능 바둑 프로그램을 만들고 싶다면 바둑판이 환경이 되는 것입니다. 

 

 


 

 

문제에 따라서 환경은 위의 그림과 같이 크게 이산공간(discrete space)와 연속공간(continuous space)으로 나누어집니다. 연속공간은 환경이 우리가 생활하는 공간과 같이 시간이나 공간이 연속적으로 이어진 공간을 의미하며, 이산공간은 연속공간을 그리드 월드(Grid world)처럼 일정 구간으로 나눈 환경을 의미합니다. 

 

현실세계는 연속공간에 해당되며, 우리가 풀고자 하는 대부분의 환경이 연속공간이 될 것입니다. 그러나 연속공간의 문제를 풀기는 쉽지 않기 때문에 어떻게든 이산공간으로 나누는 과정이 필요하게 되는 것입니다.

 

위의 그림은 연속공간으로 이루어진 미로를 6*6의 그리드로 나눈 이산공간과 12*12의 그리드로 나눈 이산공간을 보여주고 있습니다. 

 

연속공간을 이산 공간으로 나눈다는 것은 복잡한 환경을 풀기 쉽게 단순화하는 것과 비슷한 의미입니다. 따라서 같은 문제라도 공간을 나누는 방법에 따라 문제 해결의 난이도가 달라지며, 문제를 쉽게 풀기 위해서는 최대한 환경을 단순화해서 정의하는 것이 중요합니다.

 


 

 


 

강화학습에서 가장 많이 사용되는 예제는 로봇의 미로 탐색 문제입니다. 미로 탐색 문제에서 로봇은 미로에 대해 어떤 사전 정보 없이 미로 속을 탐색하면서 출발지점에서 도착지점에 이르는 최적의 경로를 찾게되는 것입니다.

 

 

위의 사진은 제일 기본적인 미로찾기에서의 탐색 문제인데 환경과 출발지점, 도착지점을 보여줍니다.

 

 

 

 

긴 글 읽어주셔서 감사합니다.

 

 


 

[References]

 

[1] M. Son, "기초부터 시작하는 강화학습/신경망 알고리즘", 11-12 (2019) 

 

[2] Sutton, Richard S., and Andrew G. Barto. Reinforcement Learning: an Introduction. The MIT Press, 2018.