
Gradient Descent, Stochastic Optimization, and Other Tales
Das Ziel dieses Buches ist es, die Magie hinter den Black-Box-Optimierern und stochastischen Optimierern zu entlarven und zu zerstreuen. Es zielt darauf ab, eine solide Grundlage dafür zu schaffen, wie und warum die Techniken funktionieren.
Dieses Manuskript kristallisiert dieses Wissen heraus, indem es aus einfachen Intuitionen die Mathematik hinter den Strategien ableitet. Dieses Buch scheut sich nicht, sowohl die formalen als auch die informellen Aspekte von Gradientenabstiegs- und stochastischen Optimierungsmethoden anzusprechen. Auf diese Weise hofft es, den Lesern ein tieferes Verständnis dieser Techniken sowie das Wann, das Wie und das Warum der Anwendung dieser Algorithmen zu vermitteln.
Der Gradientenabstieg ist einer der beliebtesten Algorithmen zur Optimierung und die bei weitem häufigste Methode zur Optimierung von Aufgaben des maschinellen Lernens. Seine stochastische Version hat in den letzten Jahren an Aufmerksamkeit gewonnen, was insbesondere für die Optimierung tiefer neuronaler Netze gilt.
In tiefen neuronalen Netzen wird der Gradient, gefolgt von einer einzelnen Stichprobe oder einer Reihe von Stichproben, verwendet, um Rechenressourcen zu sparen und Sattelpunkten zu entkommen. Im Jahr 1951 veröffentlichten Robbins und Monro eine stochastische Approximationsmethode, eine der ersten modernen Abhandlungen über stochastische Optimierung, die lokale Gradienten mit einem neuen Stapel von Stichproben schätzt.
Inzwischen ist die stochastische Optimierung zu einer Kerntechnologie des maschinellen Lernens geworden, was vor allem auf die Entwicklung des Backpropagation-Algorithmus für die Anpassung eines neuronalen Netzes zurückzuführen ist. Ziel dieses Artikels ist es, eine in sich geschlossene Einführung in die Konzepte und mathematischen Werkzeuge des Gradientenabstiegs und der stochastischen Optimierung zu geben.