Desempenho de algoritmos de aprendizagem por reforço sob condições de ambiguidade sensorial em robótica móvel

Monteiro, Sildomar T.; Ribeiro, Carlos H. C.

doi:10.1590/s0103-17592004000300008

Cited by 7 publications

(6 citation statements)

References 9 publications

Supporting

Mentioning

Contrasting

Unclassified

Order By: Relevance

“…A ideia básica do Q-learningé que o algoritmo de aprendizagem aprende um função de avaliaçãoótima sobre todo o espaço de pares estado-ação S × A. Desde que o particionamento do espaço de estados do robô e do espaço de ações não omita e não introduzam novas informações relevantes. Quando a funçãoótima Q for aprendida, o agente saberá qual ação resultará na maior recompensa em uma situação particular s futura [24].…”

Section: Definição Da Matriz De Recompensas Imediatasunclassified

“…A função Q(s, a) de recompensa futura esperada ao se escolher a ação a no estado s,é aprendida por meio de tentativas e erros segundo a equação (1): A política de escolha ações adotada foi a ε-gulosa(ε-Greedy) [2], onde o agente tem probabilidade igual a 1-ε de escolher a ação que maximiza a função valor estado-ação Q(s, a) estando no estado s, e executa uma ação aleatória com probabilidade ε. A forma procedimental do algoritmo Qlearningé retratada no algoritmo 1 [23], [24].…”

Section: Definição Da Matriz De Recompensas Imediatasunclassified

“…)em que αé a taxa de aprendizagem, r té a recompensa, resultante de tomar a ação a no estado s, γé fator de desconto e o termo V t (s t+1 ) = max a Q(s t+1 , a t )é a utilidade do estado s resultante da ação a, obtida utilizando a função Q que foi aprendida até o presente[24].…”

unclassified

See 2 more Smart Citations

Análise do Aprendizado por Reforço Aplicado a Otimização em Tomadas de Decisões Multiagente

Ottoni¹,

Nepomuceno²,

Oliveira³

et al. 2016

Anais Do 11. Congresso Brasileiro De Inteligência Computacional

View full text Add to dashboard Cite

O objetivo deste trabalho foi aplicar e analisar os efeitos do aprendizado por reforço na otimização de tomadas decisões de um sistema multiagente cooperativo.É apresentada uma metodologia de modelagem da técnica de aprendizado por reforço para times de futebol de robôs 2D. A implementação da estratégia de aprendizagem consistiu de quatro etapas: definição das ações dos agentes; definição dos estados do ambiente no qual os agentes estão inseridos; definição dos valores dos reforços; implementação no simulador RcSoccerSim da Robocup de futebol de robôs. Os testes estatísticos foram utilizados para verificar o comportamento do time de robôs durante todo o processo de aprendizado. A análise se deu verificando a evolução de desempenho do sistema multiagente como um todo, através de estudos do saldo de gols alcançado em cada jogo. Além disso, a performance individual de cada agente também foi quantificada. Através dos testes de análise de variância e comparações múltiplas foi possível quantificar quais agentes sofreram alterações de performance ao longo do processo de otimização.

show abstract

Section: Definição Da Matriz De Recompensas Imediatasunclassified

See 1 more Smart Citation

Análise do Aprendizado por Reforço Aplicado a Otimização em Tomadas de Decisões Multiagente

Ottoni¹,

Nepomuceno²,

Oliveira³

et al. 2016

Anais Do 11. Congresso Brasileiro De Inteligência Computacional

View full text Add to dashboard Cite

show abstract

“…Para ambientes estacionários, a teoria de processos markovianos de decisão -em inglês, Markov Decision Processes, ou MDPs -garante um tratamento matemático adequado. De fato, a maior parte dos trabalhos em AR baseiam-se em MDPs, embora os conceitos envolvidos possam ser aplicados de forma mais genérica (Monteiro, 2002).…”

Section: Aprendizado Por Reforçounclassified

Aprendizado da coordenação de comportamentos primitivos para robôs móveis

Selvatici

Costa

2007

Sba Controle & Automação

View full text Add to dashboard Cite

Para ter uma aplicação real, um robô móvel deve poder desempenhar sua tarefa em ambientes desconhecidos. Uma arquitetura para robôs móveis que se adapte ao meio em que o robô se encontra é então desejável. Este trabalho apresenta uma arquitetura adaptativa para robôs móveis, de nome AAREACT, que aprende como coordenar comportamentos primitivos codificados por Campos Potenciais através de Aprendizado por Reforço. A atuação da arquitetura proposta, após uma fase de aprendizado inicial, é comparada com a apresentada por uma arquitetura com coordenação fixa dos comportamentos, demonstrando melhor desempenho para diversos ambientes. Os experimentos foram realizados no simulador do robô Pioneer, da ActivMedia Robotics®. Os resultados experimentais obtidos neste trabalho apontam também a alta capacidade de adaptação da arquitetura AAREACT para um ambiente e tarefa especificos.
In most real world applications, mobile robots should perform their tasks in previously unknown environments. Thus, a mobile robot architecture capable of adaptation is very suitable. This work presents an adaptive architecture for mobile robots, AAREACT, which has the ability of learning how to coordinate primitive behaviors codified by the Potential Fields method by using Reinforcement Learning. The proposed architecture’s performance is compared to that showed by an architecture that performs a fixed coordination of its behaviors, and shows a better performance for different environments. Experiments were performed in the robot Pioneer’s simulator, from ActivMedia Robotics®. The obtained results also suggest that AAREACT has good adaptation skills for specific environment and task

show abstract

“…A navegação autônoma é uma das situações em robótica móvel em que é dado alto enfoque nos estudos de aprendizado por reforço [17] [11] [18] [14] [12]. Nesse tipo de problema, geralmente um agente deve aprender a se movimentar por um ambiente desconhecido, evitando colisões com obstáculos.…”

Section: Introductionunclassified

Análise da influência da taxa de aprendizado e do fator de desconto sobre o desempenho dos algoritmos Q-learning e SARSA: aplicação do aprendizado por reforço na navegação autônoma

Ottoni

Nepomuceno

Oliveira

et al. 2016

RBCA

View full text Add to dashboard Cite

Resumo: Nos algoritmos de aprendizado por reforço, a taxa de aprendizado (α) e o fator de desconto (γ) podem ser definidos entre qualquer valor no intervalo entre 0 e 1. Assim, adotando os conceitos de regressão logística, é proposta uma metodologia estatística para a análise da influência da variação de α e γ nos algoritmos Q-learning e SARSA. Como estudo de caso, o aprendizado por reforço foi aplicado em experimentos de navegação autônoma. A análise de resultados mostrou que simples variações em α e γ podem interferir diretamente no desempenho do aprendizado por reforço. Palavras IntroduçãoA técnica de aprendizado por reforço (AR) é amplamente aplicada na robótica para resolução de diferentes problemas e situações [1]. O objetivo do AR é fazer com que um agente possa aprender a tomar decisões a partir de experiências de sucesso e fracasso no ambiente.

show abstract

Desempenho de algoritmos de aprendizagem por reforço sob condições de ambiguidade sensorial em robótica móvel

Cited by 7 publications

References 9 publications

Análise do Aprendizado por Reforço Aplicado a Otimização em Tomadas de Decisões Multiagente

Análise do Aprendizado por Reforço Aplicado a Otimização em Tomadas de Decisões Multiagente

Aprendizado da coordenação de comportamentos primitivos para robôs móveis

Análise da influência da taxa de aprendizado e do fator de desconto sobre o desempenho dos algoritmos Q-learning e SARSA: aplicação do aprendizado por reforço na navegação autônoma

Contact Info

Product

Resources

About