관리 메뉴

Fintecuriosity

[강화학습] 강화학습과 신경망 본문

Artificial Intelligence/강화학습

[강화학습] 강화학습과 신경망

DataHolic26 2020. 7. 8. 00:27

이번 글의 내용은 '기초부터 시작하는 강화학습 / 신경망 알고리즘(손민규 지음, 위키북스 DS 시리즈)'의 내용을 참조 및 정리 하였으며 저의 개인적인 인사이트 또한 추가된 점을 먼저 밝힙니다.

 


 

강화학습의 아이디어를 더 쉽게 설명을 하면 스키너 상자 실험의 예가 있습니다.

 

레버를 누르면 먹이가 나오는 상자 안에 비둘기를 넣은 후, 비둘기를 관찰하는 스키너 상자 실험을 한 스키너는 처음에는 레버와 먹이와의 관계를 모르던 비둘기가 지속적으로 나오는 먹이를 보면서 원리는 이해하지 못하였지만 레버를 누를 경우에 먹이가 계속 나온다는 의식이 강화되는 것을 파악하였습니다. 이 실험에서 강화란 어떤 지속적인 자극에 의한 반응 점차적으로 강해지거나 약해지는 것을 의미합니다.

 

스키너 상자 실험의 예는 주로 심리학에서 많이 배우는 개념입니다. 저도 학부때 심리, 인지과학 실험 과정에서 이론을 먼저 배우고 기억을 강화하거나 소실시키는 실험을 했었던 기억이 납니다.

 

이러한 원리로 시작된 강화학습은 초기에는 간단한 단순 작업부터 시작하여 산업용 로봇의 제어, 휴머노이드 로봇의 행동학습, 자율자동차의 경로 학습 등 다양한 분야와 산업에서 활용되기 시작하였습니다. 초기에는 복잡한 기능이 아닌 간단한 기능 구현부터 시작하였으며, 인간이 시행착오를 통하여 학습하는 과정과 비슷한 이유로 주목을 받기 시작하였습니다.

 

 

강화학습에서 대표적인 알고리즘은 Q-Learning이 있습니다. Q-Learning은 위의 그림과 같이 상태들과 상태들마다 가능한 행동들이 저장되어 있는 Q-table을 컴퓨터의 메모리 상에서 구현한 후에서 학습을 진행하게 됩니다. 어떻게 진행되는지는 예제를 설명하면, 간단한 미로탈출이나 로봇의 관절 학습같은 문제는 상태공간이 작기 때문에 메로리에 Q-table을 만들어서 학습해도 충분했습니다.

 

그러나 강화학습의 영역이 점차 확대되면서 자율 주행 자동차와 같은 상태공간이 큰 문제에 적용이 되면서 지금까지 문제가 되지 않았던 메모리의 한계점에 부딪혔습니다. 강화학습 연구자들은 이런 문제를 극복하기 위해서 메모리를 이용하는 Q-table 대신 함수근사(Function Approximation) 주제로 연구를 바꾸기 시작했습니다.

 

강화학습을 연구하던 연구자들은 강화학습의 학습 방법 최적화와 함께 어떻게 함수 근사를 할 것인가를 동시에 연구해야 되는 문제에 직면을 하였습니다. 당시 오차 역전파법(Back-propagation)의 아이디어가 나오면서 신경망(Neural Network)와 함께 주목을 받으면서 부흥기를 맞게 되었습니다. 신경망으로 다차원의 비선형 함수를 근사할 수 있는 연구가 알려지면서 강화학습 연구자들 사이에 위의 그림 Q-table을 신경망으로 대체하는 연구를 진행하기 시작했습니다.

 

RBF(Radial Basis Function) 네트워크나 LVQ(Learning Vector Quantization) 네트워크 같은 다양한 형태의 신경망 또한 당시에 활발하게 사용을 하였습니다. 하지만 풀려고 하는 문제가 커지면 커질수록 신경망이 점점 복잡해지고 레이어가 늘어나고 depth가 깊어지면서 신경망에서의 경사소실(Vanishing Gradient) 문제가 존재하였습니다. 연구자들은 Q-table의 대체수단으로 신경망을 사용하였지만 경사소실 같은 한계점이 있기에 다른 수단을 찾기 시작하였습니다. 

 

 

긴 글 읽어주셔서 감사합니다.


References

 

[1] M. Son, "기초부터 시작하는 강화학습/신경망 알고리즘", 6-7 (2019) 

 

[2] Violante, Andre. “Simple Reinforcement Learning: Q-Learning.” Medium, Towards Data Science, 1 July 2019, towardsdatascience.com/simple-reinforcement-learning-q-learning-fcddc4b6fe56.

 

[3] Jaradat, Mohammad Abdel Kareem, Mohammad Al-Rousan, and Lara Quadan. "Reinforcement based mobile robot navigation in dynamic environment." Robotics and Computer-Integrated Manufacturing 27.1 (2011): 135-149.