DOI: 10.11606/t.45.2021.tde-29102021-133418
|View full text |Cite
|
Sign up to set email alerts
|

Planning in stochastic computation graphs: solving stochastic nonlinear problems with backpropagation

Help me understand this report

Search citation statements

Order By: Relevance

Paper Sections

Select...
2
2
1

Citation Types

0
0
0
6

Publication Types

Select...
1

Relationship

0
1

Authors

Journals

citations
Cited by 1 publication
(6 citation statements)
references
References 55 publications
0
0
0
6
Order By: Relevance
“…Um CSA-MDP com tempo discreto e horizonte finito pode ser definido como em [Bueno et al 2019;Bueno 2021] como uma tupla M = (S, A, Ω, T , p ω , C, H, s 0 ), onde S ⊆ R n é o espaço de estados; A ⊆ R n é o espaço de ações; Ω ⊆ R m é o conjunto de eventos exógenos; T : S × A × Ω × S → [0, 1] é a função de transição dada por uma função de densidade de probabilidade condicional p(s ′ |s, a, ω) sob o próximo estado s ′ dado o estado atual s, a ação a e o evento ω; p ω é a probabilidade sob o conjunto de eventos exógenos; C : S × A → R ≥0 é a função custo que especifica o retorno imediato recebido • 3 pelo estado atual s após aplicar a ação s; H = 0, 1, . .…”
Section: Fundamentos Teóricosunclassified
See 4 more Smart Citations
“…Um CSA-MDP com tempo discreto e horizonte finito pode ser definido como em [Bueno et al 2019;Bueno 2021] como uma tupla M = (S, A, Ω, T , p ω , C, H, s 0 ), onde S ⊆ R n é o espaço de estados; A ⊆ R n é o espaço de ações; Ω ⊆ R m é o conjunto de eventos exógenos; T : S × A × Ω × S → [0, 1] é a função de transição dada por uma função de densidade de probabilidade condicional p(s ′ |s, a, ω) sob o próximo estado s ′ dado o estado atual s, a ação a e o evento ω; p ω é a probabilidade sob o conjunto de eventos exógenos; C : S × A → R ≥0 é a função custo que especifica o retorno imediato recebido • 3 pelo estado atual s após aplicar a ação s; H = 0, 1, . .…”
Section: Fundamentos Teóricosunclassified
“…2.1 Política Reativa Profunda e Grafo de Computação Estocástico Uma Política Reativa Profunda (DRP, do inglês Deep Reactive Policy) [Bueno et al 2019;Bueno 2021] é um modelo que tenta representar uma função que mapeia estados em ações. Usualmente ela pode ser representada como um modelo paramétrico construído a partir de uma rede neural feed-forward, redes que são boas aproximadoras universais de função [Hornik 1991;Leshno et al 1993].…”
Section: Fundamentos Teóricosunclassified
See 3 more Smart Citations