관리 메뉴

Fintecuriosity

[강화학습] Introduction 본문

Artificial Intelligence/강화학습

[강화학습] Introduction

DataHolic26 2020. 7. 6. 01:04

 

이번 글의 내용은 '기초부터 시작하는 강화학습 / 신경망 알고리즘(손민규 지음, 위키북스 DS 시리즈)'의 내용을 참조 및 정리 하였으며 저의 개인적인 인사이트 또한 추가된 점을 먼저 밝힙니다.

 


 

 

강화학습(Reinforcement Learning)은 한국의 바둑기사 이세돌 9단과 알파고의 대국 사건을 통하여 잘 알려지게 되었습니다. 2016년 3월, 이세돌 9단과 구글의 DeepMind에서 개발한 알파고 인공지능이 대국을 한다는 소식은 AI Researcher 뿐만 아니라 모든 전 세계 사람들의 주목을 한 눈에 받았습니다. 그리고 이 바둑(Go)이라는 게임은 엄청난 전략을 요하는 게임인 것은 한국, 중국 및 아니 모든 나라 사람들이 아는 자명한 사실일 것입니다.

 

하지만 알파고가 이세돌 9단을 이길 것이라는 상상은 처음에 아무도 못하였고, 바둑이라는 복잡한 룰과 상대방의 수를 읽어야 하는 게임인 만큼 인공지능이 범접할 수 없는 분야라고 생각하였습니다. 예상과 달리 인공지능 알파고가 4승 1패로 이세돌 9단에게 승리를 거두면서 인공지능의 역사는 다시 쓰여지고 그 가능성에 무궁무진하다는 평가를 받기 시작했습니다. 

 


 

 

알파고라는 인공지능은 전 세계 사람들을 놀라게 만들었고 인기 있는 연구분야로 각광받기 시작하였습니다. 구글의 DeepMind는 Nature에 "Mastering the game of Go with deep neural networks and tree search" 의 논문을 통하여 알파고를 소개하였습니다. 이 논문의 인용수는 무려 7740회(Google Scholar, 07/06/20 기준)가 됩니다. 그리고 아래 사진의 nature지를 보면 96K(약 96,000)회 정도 이용되었습니다.

 

 

 

"AlphaGo achieved a 99.8% winning rate against other Go Programs, and defeated the human European Go champions by 5 games to 0. This is the first time that a computer program has defeated a human professional player in the full-sized game of Go 

"Mastering the game of Go with deep neural networks and tree search"의 Abstract

 

그리고 논문의 초록(abstract)에서의 핵심을 말씀드리자면 알파고는 다른 바둑(Go) 프로그램을 상대로 99.8%의 승률를 가지고 있다고 주장하였습니다. 한마디로 알파고의 성능은 다른 바둑 프로그램보다 우수하고, 더불어서 유럽 바둑 챔피언(사람)을 상대로 총 (total) 5 게임을 진행하였는데 모두 다 이겼다고 하였습니다. 이에 덧붙여서 컴퓨터 프로그램이 역사상 처음으로 사람(프로 바둑기사 기준)과 대국을 하여 이겼다는 시사점을 보여주고 있습니다.

 


 

"Mastering the game of Go with deep neural networks and tree search"의 논문에서는 강화학습을 사용했던 아키텍처와 어떤 방식으로 적용하였는지 그림을 통하여 보여주었습니다.

 

또한 논문에서는 몬테카를로 트리 검색(Monte Carlo tree search) 방법을 통하여 바둑 대국에서의 전략과 시뮬레이션 실험을 위해 연구된 것으로 알려졌습니다.

 


 

 

여기서 주목할 만한 점은 알파고에게 전략과 패턴을 학습시키는데 강화학습을 사용했다는 사실이 알려지면서 강화학습이 주목을 받기 시작하였습니다. 물론 알파고가 강화학습만을 사용한 것은 아닙니다. 신경망의 약점이였던 경사소실(Vanishing Gradient) 문제를 제프리 힌튼(Goeffrey Hinton) 교수님이 "A fast learning algorithm for deep belief nets"라는 논문을 통하여 문제를 해결 가능하다는 것을 소개한 것을 시작으로 다시 한번 신경망(Neural nets)의 부흥기가 시작되었습니다.

 

 


 

그리고 2012년 국제 이미지 인식기술대회(ILSVRC) 대회에서 제프리 힌튼 교수님의 팀이 알렉스넷(AlexNet)을 이용해 뛰어난 성능으로 우승을 거두며 신경망의 부활 및 붐의 시발점이 만들었습니다. 신경망이라는 이름이 아닌 "deep belief nets"라는 이름을 써야될 정도로 암울했던 신경망의 암흑기, 침체기여서 neural이란 단어를 뺐다는 이야기도 있었습니다.

 

 

이렇게 화려하게 다시 부활한 신경망은 기존의 뉴런으로만 연결된 신경망에 이미지 처리를 추가한 합성 (Convolutional Neural Networks, CNN)이라는 이름으로 이미지 인식과 분류 분야에서 각광받으며 독보적인 행보를 보여주고 있습니다.

 

 

 

긴 글 읽어주셔서 감사합니다.

 


 

[References]

 

 

[1] M. Son, "기초부터 시작하는 강화학습/신경망 알고리즘", 7-8 (2019) 

 

[2] Silver, D., Huang, A., Maddison, C. et al. Mastering the game of Go with deep neural networks and tree search. Nature 529, 484–489 (2016).

 

[3] Geoffrey E. Hinton, Simon Osindero, and Yee Whye Teh. 2006. A fast learning algorithm for deep belief nets. Neural Comput. 18, 7 (July 2006), 1527–1554.