Resumo: Neste trabalho, o objetivo é analisar o desempenho do Aprendizado por Reforço na solução do Problema da Mochila Multidimensional. Para isso, é proposto um modelo de Aprendizado por Reforço estruturado em estados, ações e recompensas. Além disso, os experimentos computacionais apresentados permitem analisar a sensibilidade dos parâmetros do algoritmo Q-learning na resolução desse tipo de problema de otimização combinatória.
Palavras-chave:Aprendizado por Reforço. Otimização Combinatória. Problema da Mochila Multidimensional.Abstract: In this work, the goal is to analyze the performance of Reinforcement Learning in solving the Multidimensional Knapsack Problem. For this, a Reinforcement Learning model structured in states, actions and rewards is proposed. In addition, the computational experiments presented allow us to analyze the sensitivity of the parameters of the Q-learning algorithm in solving this type of combinatorial optimization problem.