Análise da influência da taxa de aprendizado e do fator de desconto sobre o desempenho dos algoritmos Q-learning e SARSA: aplicação do aprendizado por reforço na navegação autônoma

Ottoni, André Luiz Carvalho; Nepomuceno, Erivelton G.; Oliveira, Marcos Santos de; Cordeiro, Lara Toledo; Lamperti, Rubisson Duarte

doi:10.5335/rbca.v8i2.5249

Cited by 6 publications

(19 citation statements)

References 27 publications

(28 reference statements)

Supporting

Mentioning

Contrasting

Unclassified

Order By: Relevance

“…Para realizar uma análise de sensibilidade dos parâmetros do AR na solução do Problema da Mochila Multidimensional, foi abordada uma estrutura experimental baseada em trabalhos anteriores [22] [21] [25]. Assim, para cada instância foram realizadas simulações com 192 combinações dos parâmetros taxa de aprendizado (α), fator de desconto (γ) e parâmetro da política − greedy: Além disso, cada combinação foi simulada em cinco épocas (repetições) com 1000 episódios.…”

Section: Experimentos Realizadosunclassified

See 1 more Smart Citation

Análise do desempenho do aprendizado por reforço na solução do problema da mochila multidimensional

Ottoni

Nepomuceno

Oliveira

2017

RBCA

Self Cite

View full text Add to dashboard Cite

Resumo: Neste trabalho, o objetivo é analisar o desempenho do Aprendizado por Reforço na solução do Problema da Mochila Multidimensional. Para isso, é proposto um modelo de Aprendizado por Reforço estruturado em estados, ações e recompensas. Além disso, os experimentos computacionais apresentados permitem analisar a sensibilidade dos parâmetros do algoritmo Q-learning na resolução desse tipo de problema de otimização combinatória. Palavras-chave:Aprendizado por Reforço. Otimização Combinatória. Problema da Mochila Multidimensional.Abstract: In this work, the goal is to analyze the performance of Reinforcement Learning in solving the Multidimensional Knapsack Problem. For this, a Reinforcement Learning model structured in states, actions and rewards is proposed. In addition, the computational experiments presented allow us to analyze the sensitivity of the parameters of the Q-learning algorithm in solving this type of combinatorial optimization problem.

show abstract

Section: Experimentos Realizadosunclassified

“…Os resultados de [22] e [21] apontam que a seleção dos valores de α, γ e influenciam diretamente na busca por uma solução ótima no PCV. De fato, estudos já demonstraram que o desempenho do AR pode ser bem sensível a definição desses parâmetros [17] [23] [24] [25].…”

Section: Introductionunclassified

Análise do desempenho do aprendizado por reforço na solução do problema da mochila multidimensional

Ottoni

Nepomuceno

Oliveira

2017

RBCA

Self Cite

View full text Add to dashboard Cite

show abstract

“…Nesse sentido, a robótica é uma aplicac ¸ão de grande relevância do AR [9]. Um exemplo de uso dessa abordagem é na navegac ¸ão autônoma, quando um robô deve aprender a desviar obstáculos [10], [11]. Outra aplicac ¸ão do AR que concentra diversos estudos é o campo da otimizac ¸ão combinatória [12], [13], [14], [15].…”

Section: Introduc ¸ãOunclassified

“…Em pesquisas recentes, os autores deste trabalho analisaram a influência da definic ¸ão das condic ¸ões de simulac ¸ão do AR em três problemas: Problema do Caixeiro Viajante (TSP) [14], [16], Problema da Mochila Multidimensional (MKP) [17] e Navegac ¸ão Autônoma [11]. Nesse sentido, esses estudos ressaltam a importância de investigar a determinac ¸ão das condic ¸ões de aprendizado para a obtenc ¸ão de bons resultados.…”

Section: Introduc ¸ãOunclassified

Development of a Pedagogical Graphical Interface for the Reinforcement Learning

Ottoni

Nepomuceno

Oliveira

2020

IEEE Latin Am. Trans.

View full text Add to dashboard Cite

“…Quanto γ mais próximo a 0, significa que recompensas imediatas são as mais importantes. Quanto γ mais próximo a 1, significa que recompensas futuras são as mais importantes [67]. Deve ser encontrado um valor para esse hiperparâmetro que evite o imediatismo, ou seja, o agente deve escolher as ações que o levem à melhor solução global possível, não apenas à melhor solução imediata.…”

Section: Processo De Decisão De Markovunclassified

Habilitando Anotações De Dados Autônomos: Uma Abordagem De Aprendizado Por Reforço Com Humano No Loop

CRUZ¹

View full text Add to dashboard Cite

Análise da influência da taxa de aprendizado e do fator de desconto sobre o desempenho dos algoritmos Q-learning e SARSA: aplicação do aprendizado por reforço na navegação autônoma

Cited by 6 publications

References 27 publications

Análise do desempenho do aprendizado por reforço na solução do problema da mochila multidimensional

Análise do desempenho do aprendizado por reforço na solução do problema da mochila multidimensional

Development of a Pedagogical Graphical Interface for the Reinforcement Learning

Habilitando Anotações De Dados Autônomos: Uma Abordagem De Aprendizado Por Reforço Com Humano No Loop

Contact Info

Product

Resources

About