“…Um CSA-MDP com tempo discreto e horizonte finito pode ser definido como em [Bueno et al 2019;Bueno 2021] como uma tupla M = (S, A, Ω, T , p ω , C, H, s 0 ), onde S ⊆ R n é o espaço de estados; A ⊆ R n é o espaço de ações; Ω ⊆ R m é o conjunto de eventos exógenos; T : S × A × Ω × S → [0, 1] é a função de transição dada por uma função de densidade de probabilidade condicional p(s ′ |s, a, ω) sob o próximo estado s ′ dado o estado atual s, a ação a e o evento ω; p ω é a probabilidade sob o conjunto de eventos exógenos; C : S × A → R ≥0 é a função custo que especifica o retorno imediato recebido • 3 pelo estado atual s após aplicar a ação s; H = 0, 1, . .…”