Bewertung:

Die Rezensionen des Buches zeigen ein gemischtes Echo. Einige Nutzer schätzen die Behandlung von PySpark, insbesondere die ersten Kapitel, und die Leichtigkeit der Übergänge für Python-Nutzer. Mehrere Kritiken erwähnen jedoch den Mangel an Tiefe, die schlechte Schreibqualität und unzureichende Details, was zu Frustration mit der Gesamtausführung führt.
Vorteile:⬤ Deckt PySpark gut ab, vor allem in den ersten Kapiteln
⬤ nützlich zum Selbststudium und für den Übergang von Python zu PySpark
⬤ gute Beispiele
⬤ hilfreich für Anfänger und Fortgeschrittene in Data Science.
⬤ Schlecht geschrieben mit vielen Fehlern
⬤ es fehlt an detaillierten technischen Informationen und Klarheit
⬤ triviale Beispiele und unzureichende Erklärung von Optionen
⬤ Gesamtausführung als unbefriedigend
⬤ erhebliche Unzufriedenheit mit der Bearbeitung und Qualität des Inhalts.
(basierend auf 5 Leserbewertungen)
Applied Data Science Using Pyspark: Learn the End-To-End Predictive Model-Building Cycle
Entdecken Sie die Möglichkeiten von PySpark und seine Anwendung im Bereich der Datenwissenschaft. Dieser umfassende Leitfaden mit handverlesenen Beispielen aus der täglichen Praxis führt Sie durch den gesamten Zyklus der Erstellung von Vorhersagemodellen mit den neuesten Techniken und Tricks des Handwerks.
Applied Data Science Using PySpark ist in sechs Abschnitte unterteilt, die Sie durch das Buch führen. In Abschnitt 1 beginnen Sie mit den Grundlagen von PySpark und konzentrieren sich auf die Datenmanipulation. Wir machen Sie mit der Sprache vertraut und bauen darauf auf, um Sie in die mathematischen Funktionen einzuführen, die von der Stange verfügbar sind. In Abschnitt 2 tauchen Sie in die Kunst der Variablenauswahl ein, wobei wir verschiedene in PySpark verfügbare Auswahltechniken demonstrieren. In Abschnitt 3 nehmen wir Sie mit auf eine Reise durch Algorithmen des maschinellen Lernens, Implementierungen und Techniken zur Feinabstimmung. Wir werden auch über verschiedene Validierungsmetriken sprechen und darüber, wie man sie für die Auswahl der besten Modelle verwendet. In den Abschnitten 4 und 5 geht es um Pipelines für maschinelles Lernen und verschiedene Methoden zur Operationalisierung des Modells und dessen Bereitstellung über Docker/eine API. Im letzten Abschnitt geht es um wiederverwendbare Objekte für einfache Experimente und Sie lernen einige Tricks kennen, mit denen Sie Ihre Programme und Pipelines für maschinelles Lernen optimieren können.
Am Ende dieses Buches werden Sie die Flexibilität und die Vorteile von PySpark in Data-Science-Anwendungen kennengelernt haben. Dieses Buch wird all jenen empfohlen, die die Möglichkeiten des parallelen Rechnens ausschöpfen und gleichzeitig mit großen Datensätzen arbeiten wollen.
Was Sie lernen werden
⬤ Erstellung eines durchgängigen Vorhersagemodells.
⬤ Implementieren Sie Techniken zur Auswahl mehrerer Variablen.
⬤ Betreiben Sie Modelle.
⬤ Beherrschen Sie mehrere Algorithmen und Implementierungen.
Für wen ist dieses Buch gedacht?
Datenwissenschaftler und Ingenieure für maschinelles Lernen und Deep Learning, die PySpark für die Echtzeitanalyse von Streaming-Daten erlernen und einsetzen möchten.