
Model-based Reinforcement Learning: A Survey
Sequentielle Entscheidungsfindung, allgemein formalisiert als Markov-Entscheidungsprozess (MDP)-Optimierung, ist eine wichtige Herausforderung in der künstlichen Intelligenz. Zwei Schlüsselansätze für dieses Problem sind Verstärkungslernen (RL) und Planung. Diese Monographie untersucht eine Integration beider Bereiche, besser bekannt als modellbasiertes Verstärkungslernen.
Modellbasiertes RL besteht aus zwei Hauptschritten: dynamisches Modelllernen und Integration von Planung und Lernen. In diesem umfassenden Überblick über das Thema befassen sich die Autoren zunächst mit dem dynamischen Modelllernen, einschließlich Herausforderungen wie dem Umgang mit Stochastik, Unsicherheit, partieller Beobachtbarkeit und zeitlicher Abstraktion. Anschließend stellen sie eine systematische Kategorisierung der Integration von Planung und Lernen vor, einschließlich Aspekten wie: wo man mit der Planung beginnen sollte, welche Budgets man für die Planung und die Sammlung realer Daten bereitstellen sollte, wie man plant und wie man die Planung in die Lern- und Handlungsschleife integriert.
Abschließend diskutieren die Autoren implizites modellbasiertes RL als durchgängige Alternative für Modelllernen und -planung und gehen auf die potenziellen Vorteile von modellbasiertem RL ein. Dabei stellen die Autoren Verbindungen zu verschiedenen verwandten RL-Bereichen her, darunter hierarchisches RL und Transferlernen.
Diese Monographie enthält einen umfassenden konzeptionellen Überblick über die Kombination von Planung und Lernen bei der Optimierung mit Markov-Entscheidungsprozessen. Sie bietet eine klare und vollständige Einführung in das Thema für Studenten und Forscher gleichermaßen.