2004
DOI: 10.1590/s0103-17592004000300008
|View full text |Cite
|
Sign up to set email alerts
|

Desempenho de algoritmos de aprendizagem por reforço sob condições de ambiguidade sensorial em robótica móvel

Abstract: We analyzed the performance variation of reinforcement learning algorithms in ambiguous state situations commonly caused by the low sensing capability of mobile robots. This variation is caused by violation of the Markov condition, which is important to guarantee convergence of these algorithms. Practical consequences of this violation in real systems are not firmly established in the literature. The algorithms assessed in this study were Q-learning, Sarsa and Q(λ), and the experiments were performed on a Mage… Show more

Help me understand this report

Search citation statements

Order By: Relevance

Paper Sections

Select...
2
1
1

Citation Types

0
0
0
6

Year Published

2007
2007
2019
2019

Publication Types

Select...
5
1

Relationship

0
6

Authors

Journals

citations
Cited by 7 publications
(6 citation statements)
references
References 9 publications
0
0
0
6
Order By: Relevance
“…A ideia básica do Q-learningé que o algoritmo de aprendizagem aprende um função de avaliaçãoótima sobre todo o espaço de pares estado-ação S × A. Desde que o particionamento do espaço de estados do robô e do espaço de ações não omita e não introduzam novas informações relevantes. Quando a funçãoótima Q for aprendida, o agente saberá qual ação resultará na maior recompensa em uma situação particular s futura [24].…”
Section: Definição Da Matriz De Recompensas Imediatasunclassified
See 2 more Smart Citations
“…A ideia básica do Q-learningé que o algoritmo de aprendizagem aprende um função de avaliaçãoótima sobre todo o espaço de pares estado-ação S × A. Desde que o particionamento do espaço de estados do robô e do espaço de ações não omita e não introduzam novas informações relevantes. Quando a funçãoótima Q for aprendida, o agente saberá qual ação resultará na maior recompensa em uma situação particular s futura [24].…”
Section: Definição Da Matriz De Recompensas Imediatasunclassified
“…A função Q(s, a) de recompensa futura esperada ao se escolher a ação a no estado s,é aprendida por meio de tentativas e erros segundo a equação (1): A política de escolha ações adotada foi a ε-gulosa(ε-Greedy) [2], onde o agente tem probabilidade igual a 1-ε de escolher a ação que maximiza a função valor estado-ação Q(s, a) estando no estado s, e executa uma ação aleatória com probabilidade ε. A forma procedimental do algoritmo Qlearningé retratada no algoritmo 1 [23], [24].…”
Section: Definição Da Matriz De Recompensas Imediatasunclassified
See 1 more Smart Citation
“…Para ambientes estacionários, a teoria de processos markovianos de decisão -em inglês, Markov Decision Processes, ou MDPs -garante um tratamento matemático adequado. De fato, a maior parte dos trabalhos em AR baseiam-se em MDPs, embora os conceitos envolvidos possam ser aplicados de forma mais genérica (Monteiro, 2002).…”
Section: Aprendizado Por Reforçounclassified
“…A navegação autônoma é uma das situações em robótica móvel em que é dado alto enfoque nos estudos de aprendizado por reforço [17] [11] [18] [14] [12]. Nesse tipo de problema, geralmente um agente deve aprender a se movimentar por um ambiente desconhecido, evitando colisões com obstáculos.…”
Section: Introductionunclassified