2016
DOI: 10.5335/rbca.v8i2.5249
|View full text |Cite
|
Sign up to set email alerts
|

Análise da influência da taxa de aprendizado e do fator de desconto sobre o desempenho dos algoritmos Q-learning e SARSA: aplicação do aprendizado por reforço na navegação autônoma

Abstract: Resumo: Nos algoritmos de aprendizado por reforço, a taxa de aprendizado (α) e o fator de desconto (γ) podem ser definidos entre qualquer valor no intervalo entre 0 e 1. Assim, adotando os conceitos de regressão logística, é proposta uma metodologia estatística para a análise da influência da variação de α e γ nos algoritmos Q-learning e SARSA. Como estudo de caso, o aprendizado por reforço foi aplicado em experimentos de navegação autônoma. A análise de resultados mostrou que simples variações em α e γ podem … Show more

Help me understand this report

Search citation statements

Order By: Relevance

Paper Sections

Select...
3
1
1

Citation Types

0
4
0
15

Year Published

2017
2017
2023
2023

Publication Types

Select...
5
1

Relationship

2
4

Authors

Journals

citations
Cited by 6 publications
(19 citation statements)
references
References 27 publications
(28 reference statements)
0
4
0
15
Order By: Relevance
“…Para realizar uma análise de sensibilidade dos parâmetros do AR na solução do Problema da Mochila Multidimensional, foi abordada uma estrutura experimental baseada em trabalhos anteriores [22] [21] [25]. Assim, para cada instância foram realizadas simulações com 192 combinações dos parâmetros taxa de aprendizado (α), fator de desconto (γ) e parâmetro da política − greedy: Além disso, cada combinação foi simulada em cinco épocas (repetições) com 1000 episódios.…”
Section: Experimentos Realizadosunclassified
See 1 more Smart Citation
“…Para realizar uma análise de sensibilidade dos parâmetros do AR na solução do Problema da Mochila Multidimensional, foi abordada uma estrutura experimental baseada em trabalhos anteriores [22] [21] [25]. Assim, para cada instância foram realizadas simulações com 192 combinações dos parâmetros taxa de aprendizado (α), fator de desconto (γ) e parâmetro da política − greedy: Além disso, cada combinação foi simulada em cinco épocas (repetições) com 1000 episódios.…”
Section: Experimentos Realizadosunclassified
“…Os resultados de [22] e [21] apontam que a seleção dos valores de α, γ e influenciam diretamente na busca por uma solução ótima no PCV. De fato, estudos já demonstraram que o desempenho do AR pode ser bem sensível a definição desses parâmetros [17] [23] [24] [25].…”
Section: Introductionunclassified
“…Nesse sentido, a robótica é uma aplicac ¸ão de grande relevância do AR [9]. Um exemplo de uso dessa abordagem é na navegac ¸ão autônoma, quando um robô deve aprender a desviar obstáculos [10], [11]. Outra aplicac ¸ão do AR que concentra diversos estudos é o campo da otimizac ¸ão combinatória [12], [13], [14], [15].…”
Section: Introduc ¸ãOunclassified
“…Em pesquisas recentes, os autores deste trabalho analisaram a influência da definic ¸ão das condic ¸ões de simulac ¸ão do AR em três problemas: Problema do Caixeiro Viajante (TSP) [14], [16], Problema da Mochila Multidimensional (MKP) [17] e Navegac ¸ão Autônoma [11]. Nesse sentido, esses estudos ressaltam a importância de investigar a determinac ¸ão das condic ¸ões de aprendizado para a obtenc ¸ão de bons resultados.…”
Section: Introduc ¸ãOunclassified
“…Quanto γ mais próximo a 0, significa que recompensas imediatas são as mais importantes. Quanto γ mais próximo a 1, significa que recompensas futuras são as mais importantes [67]. Deve ser encontrado um valor para esse hiperparâmetro que evite o imediatismo, ou seja, o agente deve escolher as ações que o levem à melhor solução global possível, não apenas à melhor solução imediata.…”
Section: Processo De Decisão De Markovunclassified