Bewertung:

Dieses Buch dient als umfassende Ressource zum Erlernen von Apache Spark und bietet detaillierte theoretische und praktische Einblicke. Es ist gut gegliedert, konzentriert sich auf verschiedene Komponenten von Spark und enthält hilfreiche visuelle Darstellungen und Codebeispiele. Allerdings ist es für erfahrene Benutzer möglicherweise zu grundlegend und erfordert einige vorherige Programmierkenntnisse.
Vorteile:⬤ Behandelt theoretische und praktische Aspekte von Spark in großer Tiefe
⬤ gut organisiert und leicht zu folgen
⬤ bietet klare Anweisungen, nützliche Visualisierungen und Codebeispiele
⬤ bietet eine gute Einführung in Spark
⬤ enthält Kapitel über Delta Lake und MLlib
⬤ geeignet sowohl für Anfänger als auch für erfahrenere Benutzer, die eine Auffrischung suchen.
⬤ Einige Themen werden möglicherweise zu oberflächlich behandelt
⬤ erfordert ein grundlegendes bis mittleres Verständnis von Programmierung und Datenanalyse
⬤ nicht ideal für Benutzer mit vorheriger Spark-Erfahrung
⬤ die Einrichtung kann eine Herausforderung sein, insbesondere für Mac- und Windows-Benutzer
⬤ ist möglicherweise nicht für absolute Neulinge in der Technologie geeignet.
(basierend auf 33 Leserbewertungen)
Learning Spark: Lightning-Fast Data Analytics
Die Daten werden größer, kommen schneller an und liegen in einer Vielzahl von Formaten vor - und sie alle müssen für Analysen oder maschinelles Lernen in großem Umfang verarbeitet werden. Aber wie können Sie solche unterschiedlichen Arbeitslasten effizient verarbeiten? Hier kommt Apache Spark ins Spiel.
Aktualisiert um Spark 3. 0, zeigt diese zweite Ausgabe Dateningenieuren und Datenwissenschaftlern, warum Struktur und Vereinheitlichung in Spark wichtig sind. Dieses Buch erklärt insbesondere, wie man einfache und komplexe Datenanalysen durchführt und Algorithmen des maschinellen Lernens einsetzt. Anhand von Schritt-für-Schritt-Anleitungen, Codeschnipseln und Notizbüchern werden Sie in die Lage versetzt:
⬤ Python-, SQL-, Scala- oder Java-High-Level-Structured-APIs zu erlernen.
⬤ Spark-Operationen und die SQL-Engine zu verstehen.
⬤ Spark-Operationen mit Spark-Konfigurationen und der Spark-Benutzeroberfläche untersuchen, abstimmen und debuggen.
⬤ Verbindung zu Datenquellen: JSON, Parquet, CSV, Avro, ORC, Hive, S3, oder Kafka.
⬤ Durchführen von Analysen auf Batch- und Streaming-Daten mit Structured Streaming.
⬤ Zuverlässige Datenpipelines mit Open Source Delta Lake und Spark aufbauen.
⬤ Entwickeln Sie Pipelines für maschinelles Lernen mit MLlib und erstellen Sie Modelle mit MLflow.