Regret Analysis of Stochastic and Nonstochastic Multi-Armed Bandit Problems

Regret-Analyse von stochastischen und nicht-stochastischen mehrarmigen Banditenproblemen (Bastian Bubeck S.)

Leserbewertungen

Derzeit gibt es keine Leserbewertungen. Die Bewertung basiert auf 2 Stimmen.

Originaltitel:

Regret Analysis of Stochastic and Nonstochastic Multi-Armed Bandit Problems

Inhalt des Buches:

Ein mehrarmiges Banditenproblem - oder einfach ein Banditenproblem - ist ein sequentielles Zuweisungsproblem, das durch eine Reihe von Aktionen definiert ist. In jedem Zeitschritt wird eine Ressourceneinheit einer Aktion zugewiesen und eine beobachtbare Auszahlung erzielt.

Das Ziel ist die Maximierung der Gesamtauszahlung, die in einer Folge von Zuweisungen erzielt wird. Der Name Bandit bezieht sich auf die umgangssprachliche Bezeichnung für einen Spielautomaten (in der amerikanischen Umgangssprache "one-armed bandit"). In einem Kasino erhält man ein sequentielles Zuweisungsproblem, wenn der Spieler mit vielen Spielautomaten gleichzeitig konfrontiert ist (ein "mehrarmiger Bandit") und wiederholt wählen muss, wo er die nächste Münze einwirft.

Das Problem des mehrarmigen Banditen ist das einfachste Beispiel für ein sequentielles Entscheidungsproblem mit einem Explorations-Ausbeutungs-Kompromiss.

Dabei handelt es sich um die Abwägung zwischen der Beibehaltung der Option, die in der Vergangenheit die höchsten Gewinne abgeworfen hat, und der Erkundung neuer Optionen, die in der Zukunft höhere Gewinne abwerfen könnten. Obwohl die Untersuchung von Bandit-Problemen bis in die 1930er Jahre zurückreicht, taucht der Kompromiss zwischen Erkundung und Ausbeutung in mehreren modernen Anwendungen auf, z.

B. bei der Anzeigenschaltung, der Optimierung von Websites und der Paketweiterleitung. Mathematisch gesehen wird ein mehrarmiges Banditenproblem durch den mit jeder Option verbundenen Auszahlungsprozess definiert.

In diesem Buch liegt der Schwerpunkt auf zwei Extremfällen, in denen die Analyse des Bedauerns besonders einfach und elegant ist: unabhängige und identisch verteilte Auszahlungen und kontradiktorische Auszahlungen. Neben dem grundlegenden Setting mit endlich vielen Aktionen werden auch einige der wichtigsten Varianten und Erweiterungen, wie das kontextuelle Bandit-Modell, analysiert. Diese Monographie ist ein ideales Nachschlagewerk für Studenten und Forscher mit Interesse an Bandit-Problemen.

Weitere Daten des Buches:

ISBN:	9781601986269
Autor:	Bastian Bubeck S.
Verlag:	New Publ Inc
Sprache:	Englisch
Einband:	Taschenbuch

Kauf:

Derzeit verfügbar, auf Lager.

Regret-Analyse von stochastischen und nicht-stochastischen mehrarmigen Banditenproblemen

Leserbewertungen

Originaltitel:

Inhalt des Buches:

Weitere Daten des Buches:

Kauf:

Weitere Bücher des Autors:

Die Werke des Autors wurden von folgenden Verlagen veröffentlicht: