A successive approximation algorithm for an undiscounted Markov decision process

J. Wal, van der

    Research output: Contribution to journalArticleAcademicpeer-review

    6 Citations (Scopus)
    1 Downloads (Pure)

    Abstract

    In this paper we consider a completely ergodic Markov decision process with finite state and decision spaces using the average return per unit time criterion. An algorithm is derived which approximates the optimal solution. It will be shown that this algorithm is finite and supplies upper and lower bounds for the maximal average return and a nearly optimal policy with average return between these bounds.Diese Arbeit betrachtet den ergodischen Markov-Entscheidungsprozeß mit endlichem Zustandsraum und endlichen Aktionsmengen mit dem Kriterium des Durchschnittsertrags. Ein Algorithmus wird presentiert, der diesen Ertrag approximiert. Es wird bewiesen, daß der Algorithmus konvergiert, und es werden obere und untere Schranken zum optimalen Durchschnittsertrag gegeben. Außerdem wird eine Strategie bestimmt mit zugehörigem Durchschnittsertrag zwischen diesen Schranken.
    Original languageEnglish
    Pages (from-to)157-162
    Number of pages6
    JournalComputing
    Volume17
    Issue number2
    DOIs
    Publication statusPublished - 1976

    Fingerprint

    Dive into the research topics of 'A successive approximation algorithm for an undiscounted Markov decision process'. Together they form a unique fingerprint.

    Cite this