최근 로봇 팔 매니퓰레이터의 모션을 만들어내는 기법으로 강화학습과 생성형 모델을 이용한 논문에 대해서 공부하고 있다. 학부 전공 때 인공지능과 관련된 과목은 개설되지않아 기초부터 공부하고 있지만 필요한 부분만 최대한 발췌해서 공부하려고 하는 중이다.강화학습에는 많은 종류가 있지만 그 중에서 논문에서 사용 중인 'Deep Q Learning'에 대해서 간단하게 정리해보려고 한다. 강화학습(Reinforcement Learning) 강화학습이란, S = state(상태), A = action(행동), R = reward(보상)으로 이루어져 있다. 주어진 환경에서 어떤 행동을 해야할지에 대해 선택하는 과정을 인공지능(Neuralnet)을 이용해서 학습을 시켜 최적화하는 과정을 의미한다. 다음 행동으로 ..