
Risk-Sensitive Reinforcement Learning via Policy Gradient Search
Verstärkungslernen (Reinforcement Learning, RL) ist eine der grundlegenden Säulen der künstlichen Intelligenz und des maschinellen Lernens. Eine wichtige Überlegung bei jedem Optimierungs- oder Steuerungsproblem ist der Begriff des Risikos, aber seine Einbeziehung in RL ist eine relativ neue Entwicklung. Diese Monographie gibt einen Überblick über die Forschung im Bereich der risikosensitiven RL, die Gradientensuche verwendet.
Die Autoren geben einen Überblick über einige der jüngsten Arbeiten in diesem Bereich, insbesondere dort, wo die Policy-Gradientensuche der Lösungsansatz ist. In der ersten risikosensitiven RL-Einstellung decken sie populäre Risikomaße ab, die auf Varianz, bedingtem Risikowert und Zufallsbeschränkungen basieren, und präsentieren eine Vorlage für Policy-Gradient-basierte risikosensitive RL-Algorithmen, die eine Lagrangesche Formulierung verwenden. Für den Fall, dass das Risiko direkt in die Zielfunktion einfließt, werden eine exponentielle Nutzenformulierung, die kumulative Prospect-Theorie und kohärente Risikomaße betrachtet.
Die Autoren haben den Text sowohl für Anfänger als auch für Experten geschrieben und in sich abgeschlossen, aber auch so organisiert, dass erfahrene Leser die Hintergrundkapitel überspringen können. Dies ist ein vollständiger Leitfaden für Studenten und Forscher, die sich mit diesem Aspekt des maschinellen Lernens beschäftigen.