
From Bandits to Monte-Carlo Tree Search: The Optimistic Principle Applied to Optimization and Planning
Von Banditen zur Monte-Carlo-Baumsuche: The Optimistic Principle Applied to Optimization and Planning behandelt verschiedene Aspekte des "Optimismus im Angesicht der Ungewissheit"-Prinzips für groß angelegte Optimierungsprobleme mit begrenztem numerischem Budget. Die ursprüngliche Motivation für diese Monographie ergab sich aus dem empirischen Erfolg der so genannten "Monte-Carlo Tree Search"-Methode, die beim Computer-Go populär wurde und auf viele andere Spiele sowie Optimierungs- und Planungsprobleme ausgeweitet wurde.
Sie legt die theoretischen Grundlagen des Fachgebiets dar, indem sie die Komplexität der Optimierungsprobleme charakterisiert und effiziente Algorithmen mit Leistungsgarantien entwickelt. Die Hauptrichtung, die in dieser Monographie verfolgt wird, besteht darin, ein komplexes Entscheidungsproblem (z. B.
ein Optimierungsproblem in einem großen Suchraum) in eine Abfolge elementarer Entscheidungen zu zerlegen, wobei jede Entscheidung der Abfolge mit Hilfe eines stochastischen "mehrarmigen Bandits" (mathematisches Modell für die Entscheidungsfindung in stochastischen Umgebungen) gelöst wird. Auf diese Weise wird eine hierarchische Suche definiert, die die angenehme Eigenschaft hat, dass die Erkundung mit einer quasi-uniformen Abtastung des Raums beginnt und sich dann in verschiedenen Maßstäben auf die vielversprechendsten Bereiche konzentriert (unter Anwendung des optimistischen Prinzips), bis schließlich eine lokale Suche um die globalen Optima der Funktion durchgeführt wird.
Diese Monographie betrachtet das Problem der Funktionsoptimierung in allgemeinen Suchräumen (wie metrische Räume, strukturierte Räume, Bäume und Graphen) sowie das Problem der Planung in Markov-Entscheidungsprozessen. Der Hauptbeitrag ist eine Klasse von hierarchischen optimistischen Algorithmen mit verschiedenen algorithmischen Instanziierungen, je nachdem, ob die Auswertungen verrauscht oder geräuschlos sind und ob ein Maß für die lokale "Glätte" der Funktion um das globale Maximum bekannt oder unbekannt ist.