Análise do desempenho do aprendizado por reforço na solução do problema da mochila multidimensional

Anais Do Congresso Brasileiro De Automática 2020

et al. 2020

O Aprendizado por Reforço (AR) é uma técnica de Machine Learning com importantes aplicações em problemas de otimização combinatória. No entanto, a literatura carece de estudos sobre a transferência de AR entre domínios de otimização. Baseando-se nisso, o objetivo deste trabalho foi aplicar e analisar a transferência de conhecimento do AR entre o Problema do Caixeiro Viajante (TSP) e o Sequential Ordering Problem (SOP). Para isso, foi adotada a biblioteca de instâncias TSPLIB e o algoritmo SARSA. A metodologia proposta compreende: modelagem do sistema de AR, geração da base de conhecimento (QTSP), experimentos para transferência de aprendizado e analise dos resultados. Os resultados obtidos a partir de testes estatísticos, apontam que, em geral, adotar a transferência de conhecimento entre os problemas possibilitou o cáalculo de melhores métricas de desempenho do domínio objetivo (SOP).

show abstract

Section: Seguindo Essa Linha Técnicas De Transfer Reinforcementunclassified

Transferência de Aprendizado por Reforçoo em Problemas de Otimização Combinatória

Anais Do Congresso Brasileiro De Automática 2020

et al. 2020

show abstract

“…A definic ¸ão de parâmetros do AR é um ponto importante para um bom desempenho nos experimentos [14], [17], [11]. A taxa de aprendizado (α) regula a velocidade que as novas informac ¸ões aprendidas se sobrepõem perante as antigas.…”

Section: A Aprendizado Por Reforc ¸Ounclassified

“…A estrutura de AR adotada foi proposta em [17]. No modelo, um estado identifica qual item i é inserido nas m mochilas no instante t. As ac ¸ões representam a intenc ¸ão de inserir um objeto i em t+1.…”

Section: Problema Da Mochila Multidimensionalunclassified

“…Em pesquisas recentes, os autores deste trabalho analisaram a influência da definic ¸ão das condic ¸ões de simulac ¸ão do AR em três problemas: Problema do Caixeiro Viajante (TSP) [14], [16], Problema da Mochila Multidimensional (MKP) [17] e Navegac ¸ão Autônoma [11]. Nesse sentido, esses estudos ressaltam a importância de investigar a determinac ¸ão das condic ¸ões de aprendizado para a obtenc ¸ão de bons resultados.…”

Section: Introduc ¸ãOunclassified

See 1 more Smart Citation

Development of a Pedagogical Graphical Interface for the Reinforcement Learning

Nepomuceno

2020

IEEE Latin Am. Trans.

“…Já o trabalho [9], define os parâmetros α e γ por tentativa e erro para um ambiente de navegação simulada. Em uma publicação recente dos autores deste trabalho, é avaliado o desempenho do algoritmo Q-learning na solução do Problema do Caixeiro Viajante, verificando os resultados da variação da polítca ε-greedy e da taxa de aprendizado [10]. Ainda na literatura, o método mais simples e muito utilizado é a definição dos parâmetros α e γ constantes em um única combinação inicial, como nos trabalhos [11] [12] [13] [14] [15].…”

Section: Introductionunclassified

Análise da influência da taxa de aprendizado e do fator de desconto sobre o desempenho dos algoritmos Q-learning e SARSA: aplicação do aprendizado por reforço na navegação autônoma

Nepomuceno

et al. 2016

RBCA

Self Cite