2022
DOI: 10.3390/s22197266
|View full text |Cite
|
Sign up to set email alerts
|

Adaptive Discount Factor for Deep Reinforcement Learning in Continuing Tasks with Uncertainty

Abstract: Reinforcement learning (RL) trains an agent by maximizing the sum of a discounted reward. Since the discount factor has a critical effect on the learning performance of the RL agent, it is important to choose the discount factor properly. When uncertainties are involved in the training, the learning performance with a constant discount factor can be limited. For the purpose of obtaining acceptable learning performance consistently, this paper proposes an adaptive rule for the discount factor based on the advan… Show more

Help me understand this report

Search citation statements

Order By: Relevance

Paper Sections

Select...
2
1
1
1

Citation Types

0
2
0
4

Year Published

2022
2022
2024
2024

Publication Types

Select...
4
1

Relationship

0
5

Authors

Journals

citations
Cited by 6 publications
(6 citation statements)
references
References 13 publications
(17 reference statements)
0
2
0
4
Order By: Relevance
“…Therefore, when the agent has fully established the model of the environment, γ equals one. Recent developments in computational theory have led to claims that time-varying γ outperforms fixed gamma in terms of performance [42]. Overall, despite using a simple two-step task, we still demonstrated that pigeons use model-based learning rules.…”
Section: Discussionmentioning
confidence: 65%
“…Therefore, when the agent has fully established the model of the environment, γ equals one. Recent developments in computational theory have led to claims that time-varying γ outperforms fixed gamma in terms of performance [42]. Overall, despite using a simple two-step task, we still demonstrated that pigeons use model-based learning rules.…”
Section: Discussionmentioning
confidence: 65%
“…Estas abordagens foram: aprendizado de movimentos ponto a ponto [3], aprendizado com feedback interativo [27], algoritmos de interac ¸ão contínua [24], manipulac ¸ão de objetos [35], tarefa de abertura de porta [45], manipulac ¸ão coordenada de multi-robôs [20], controle neural adaptativo [42], controle de manipuladores [18], planejamento de trajetória [47], inspec ¸ão robótica [14] e controle de posic ¸ão [49]. [48,17,19,38] Não utilizou [3,27,24,35,45,20,42,18,47,14,49] Verifica-se também que a variedade de manipuladores robóticos utilizados é ampla, sendo o modelo UR3 da Universal Robots o mais utilizado entre estes em trabalhos com enfoque em: Tarefa peg-in-hole [6,4] e controle de brac ¸o duplo robótico [23]; seguido do PANDA [10,34], UR5 [31,22], RM-X52 [32,33] e IRB 1600 [1,2]. Além disso, 3 trabalhos fizeram o uso de manipuladores produzidos em laboratório, customizados ou com pec ¸as impressas em 3D, implementados em: Controle de articulac ¸ões robóticas [36], planejamento de movimento [46] e mapeamento de controlador de brac ¸o robótico [37].…”
Section: A Manipuladores Robóticos E Simuladoresunclassified
“…Neste trabalho foram feitos experimentos em manipuladores robóticos para a análise dos efeitos estudados e foi descoberto que a interpretac ¸ão da melhor taxa de interac ¸ão com um professor é influenciada tanto pela complexidade da tarefa, quanto pelo limite de performance; além disso, foi verificado que a taxa de interac ¸ão ótima muda de acordo com o tempo e que uma trajetória ótima é determinada pela complexidade da tarefa. O método Soft-Actor-Critic (SAC) foi estudado e aplicado em alguns dos trabalhos presentes na revisão [36,46,17] e também juntamente ao Algoritmo Deep Reinforcement Learning (DRL). Um exemplo dessa combinac ¸ão é apresentado no trabalho desenvolvido por [33], no qual se utiliza do algoritmo proposto para solucionar o problema de planejamento de caminho para manipuladores robóticos multi-brac ¸os com obstáculos em movimento periódico.…”
Section: B Técnicas De Ar Utilizadas Nos Trabalhos Analisadosunclassified
See 2 more Smart Citations