
Multi-Armed Bandits - Theory and Applications to Online Learning in Networks
Mehrarmige Bandit-Probleme betreffen die optimale sequentielle Entscheidungsfindung und das Lernen in unbekannten Umgebungen.
Seit dem ersten Bandit-Problem, das 1933 von Thompson für die Anwendung von klinischen Versuchen gestellt wurde, haben Bandit-Probleme dauerhafte Aufmerksamkeit von mehreren Forschungsgemeinschaften genossen und eine breite Palette von Anwendungen in verschiedenen Bereichen gefunden. Dieses Buch behandelt klassische Ergebnisse und neuere Entwicklungen zu Bayes'schen und frequentistischen Bandit-Problemen.
Wir beginnen in Kapitel 1 mit einem kurzen Überblick über die Geschichte der Bandit-Probleme, stellen die beiden Schulen - Bayesianer und Frequentisten - der Ansätze gegenüber und heben grundlegende Ergebnisse und Schlüsselanwendungen hervor. In den Kapiteln 2 und 4 werden die kanonischen Bayes'schen bzw. frequentistischen Bandit-Modelle behandelt.
In den Kapiteln 3 und 5 werden wichtige Varianten des kanonischen Bandit-Modells erörtert, die neue Wege aufzeigen, neue Techniken einführen und die Anwendungsmöglichkeiten dieses klassischen Problems erweitern. In Kapitel 6 stellen wir mehrere repräsentative Anwendungsbeispiele in Kommunikationsnetzen und sozioökonomischen Systemen vor, um die Verbindungen zwischen der Bayes'schen und der frequentistischen Formulierung des Bandit-Problems zu beleuchten und zu zeigen, wie die strukturellen Ergebnisse des einen genutzt werden können, um Lösungen für das andere zu erhalten.