Planning in stochastic computation graphs: solving stochastic nonlinear problems with backpropagation

Bueno, Thiago Pereira

doi:10.11606/t.45.2021.tde-29102021-133418

Cited by 1 publication

(6 citation statements)

References 55 publications

Supporting

Mentioning

Contrasting

Unclassified

Order By: Relevance

“…Um CSA-MDP com tempo discreto e horizonte finito pode ser definido como em [Bueno et al 2019;Bueno 2021] como uma tupla M = (S, A, Ω, T , p ω , C, H, s 0 ), onde S ⊆ R n é o espaço de estados; A ⊆ R n é o espaço de ações; Ω ⊆ R m é o conjunto de eventos exógenos; T : S × A × Ω × S → [0, 1] é a função de transição dada por uma função de densidade de probabilidade condicional p(s ′ |s, a, ω) sob o próximo estado s ′ dado o estado atual s, a ação a e o evento ω; p ω é a probabilidade sob o conjunto de eventos exógenos; C : S × A → R ≥0 é a função custo que especifica o retorno imediato recebido • 3 pelo estado atual s após aplicar a ação s; H = 0, 1, . .…”

Section: Fundamentos Teóricosunclassified

“…2.1 Política Reativa Profunda e Grafo de Computação Estocástico Uma Política Reativa Profunda (DRP, do inglês Deep Reactive Policy) [Bueno et al 2019;Bueno 2021] é um modelo que tenta representar uma função que mapeia estados em ações. Usualmente ela pode ser representada como um modelo paramétrico construído a partir de uma rede neural feed-forward, redes que são boas aproximadoras universais de função [Hornik 1991;Leshno et al 1993].…”

Section: Fundamentos Teóricosunclassified

“…Em [Bueno et al 2019;Bueno 2021] foi proposta uma extensão do algoritmo tf-plan para MDPs, chamado de tf-mdp, em que uma Política Reativa Profunda é treinada em conjunto com um grafo de computação estocástico usando o truque de reparametrização. Além de considerar efeitos estocásticos, o tf-mdp permite que sejam resolvidos problemas para tomada de decisão sequencial em ambientes com estados e ações contínuas.…”

Section: Planejamento Diferenciávelunclassified

“…Um trabalho recente baseado em gradiente de política em conjunto com a modelagem de grafos de computação estocásticos [Schulman 2016] é o trabalho de [Wu et al 2017], que resolve um problema de planejamento determinístico e contínuo utilizando gradientes de política e a técnica de gradiente descendente estocástico para encontrar valores aproximados de ações para este ambiente. Posteriormente, o trabalho de [Bueno et al 2019;Bueno 2021] estendeu esta técnica para MDPs com estados e ações contínuas, treinando uma rede neural que representa uma política aproximada, chamada de política reativa profunda (DRP, do inglês Deep Reactive Policy). Por resolverem problemas de planejamento utilizando técnicas de diferenciação baseadas em gradiente, esses algoritmos são também chamados de algoritmos de planejamento diferenciável .…”

Section: Introductionunclassified

“…O objetivo é analisar como diferentes valores de horizonte de um CSA-MDP estão relacionados com a satisfação da meta. Para isso, realizamos experimentos com o algoritmo tf-mdp [Bueno et al 2019;Bueno 2021] para a instância Navigation.2 ilustrada na Figura 1.…”

Section: Introductionunclassified

See 4 more Smart Citations

Differentiable Planning with Indefinite Horizon

Dias

Barros

Delgado

et al. 2022

Anais Do X Symposium on Knowledge Discovery, Mining and Learning (KDMiLe 2022)

View full text Add to dashboard Cite

With the recent advances in automated planning based on deep-learning techniques, Deep Reactive Policies (DRPs) have been shown as a powerful framework to solve Markov Decision Processes (MDPs) with a certain degree of complexity, like MDPs with continuous action-state spaces and exogenous events. Some differentiable planning algorithms can learn these policies through policy-gradient techniques considering a finite horizon MDP. However, for certain domains, we do not know the ideal size of the horizon needed to find an optimal solution, even when we have a planning goal description, that can either be a simple reachability goal or a complex goal involving path optimization. This work aims to solve a continuous MDP through differentiable planning, considering the problem horizon as a hyperparameter that can be adjusted for a DRP training process. This preliminary investigation show that it is possible to find better policies by choosing a horizon that encompasses the planning goal.

show abstract

Section: Fundamentos Teóricosunclassified