Hochleistungs-spark: Best Practices für die Skalierung und Optimierung von Apache Spark

Bewertung:   (4,2 von 5)

Hochleistungs-spark: Best Practices für die Skalierung und Optimierung von Apache Spark (Holden Karau)

Leserbewertungen

Zusammenfassung:

Das Buch „High Performance Spark“ bietet eine detaillierte Untersuchung des Schreibens von effizientem Spark-Code, geeignet für Fachleute mit Vorkenntnissen in Scala und Spark. Es konzentriert sich auf die Leistungsoptimierung und bietet gründliche Codebeispiele, hauptsächlich in Scala. Während einige Benutzer es als gut strukturierte und informative Ressource empfanden, kritisierten andere die Zugänglichkeit für Anfänger und die starke Abhängigkeit von Scala.

Vorteile:

Umfassender Leitfaden zum Schreiben von leistungsstarkem Spark-Code.
Detaillierte Erklärungen von fortgeschrittenen Konzepten und Optimierungstechniken.
Gut strukturiert mit einer guten Balance zwischen Theorie und praktischen Anwendungen.
Reich an Codebeispielen, die das Verständnis verbessern, insbesondere für diejenigen, die mit Scala vertraut sind.
Klare Darstellung, Einfachheit und nützliche Diagramme.

Nachteile:

Nicht für Anfänger geeignet; setzt Vorkenntnisse in Spark und Scala voraus.
Der starke Fokus auf Scala kann Benutzer, die mit dieser Sprache nicht vertraut sind, abschrecken.
Einige Benutzer empfanden es als zu dicht und anspruchsvoll ohne eine praktische Spark-Umgebung.
Begrenzte Abdeckung bestimmter Themen, wie z. B. Spark-Streaming.
Einige empfanden es als langweilig, weil es zu viele Programmierbeispiele gab.

(basierend auf 27 Leserbewertungen)

Originaltitel:

High Performance Spark: Best Practices for Scaling and Optimizing Apache Spark

Inhalt des Buches:

Apache Spark ist erstaunlich, wenn alles klappt. Wenn Sie jedoch nicht die Leistungsverbesserungen gesehen haben, die Sie erwartet haben, oder sich immer noch nicht sicher genug fühlen, um Spark in der Produktion zu verwenden, ist dieses praktische Buch für Sie. Die Autoren Holden Karau und Rachel Warren demonstrieren Leistungsoptimierungen, damit Ihre Spark-Abfragen schneller laufen und größere Datenmengen verarbeiten können, während sie weniger Ressourcen verbrauchen.

Dieses Buch ist ideal für Softwareingenieure, Dateningenieure, Entwickler und Systemadministratoren, die mit großen Datenanwendungen arbeiten, und beschreibt Techniken, die die Kosten für die Dateninfrastruktur und die Arbeitszeit von Entwicklern reduzieren können. Sie werden nicht nur ein umfassenderes Verständnis von Spark erlangen, sondern auch lernen, wie Sie es zum Klingen bringen können.

Mit diesem Buch werden Sie Folgendes erkunden:

⬤ Wie die neuen Schnittstellen von Spark SQL die Leistung gegenüber der RDD-Datenstruktur von SQL verbessern.

⬤ Die Wahl zwischen Daten-Joins in Core Spark und Spark SQL.

⬤ Techniken, um das Beste aus Standard-RDD-Transformationen herauszuholen.

⬤ Wie man Leistungsprobleme im Schlüssel/Wertpaar-Paradigma von Spark umgehen kann.

⬤ Schreiben von leistungsstarkem Spark-Code ohne Scala oder die JVM.

⬤ Wie man bei der Anwendung von Verbesserungsvorschlägen auf Funktionalität und Leistung testet.

⬤ Verwendung von Spark MLlib und Spark ML-Bibliotheken für maschinelles Lernen.

⬤ Die Streaming-Komponenten von Spark und externe Community-Pakete.

Weitere Daten des Buches:

ISBN:9781491943205
Autor:
Verlag:
Einband:Taschenbuch
Erscheinungsjahr:2017
Seitenzahl:358

Kauf:

Derzeit verfügbar, auf Lager.

Ich kaufe es!

Weitere Bücher des Autors:

Hochleistungs-spark: Best Practices für die Skalierung und Optimierung von Apache Spark - High...
Apache Spark ist erstaunlich, wenn alles klappt...
Hochleistungs-spark: Best Practices für die Skalierung und Optimierung von Apache Spark - High Performance Spark: Best Practices for Scaling and Optimizing Apache Spark
Skalierung von Python mit Ray: Abenteuer in der Cloud und Serverless Patterns - Scaling Python with...
Serverloses Computing ermöglicht es Entwicklern,...
Skalierung von Python mit Ray: Abenteuer in der Cloud und Serverless Patterns - Scaling Python with Ray: Adventures in Cloud and Serverless Patterns
Skalierung von Python mit Dask: Von der Datenwissenschaft zum maschinellen Lernen - Scaling Python...
Moderne Systeme enthalten Multi-Core-CPUs und...
Skalierung von Python mit Dask: Von der Datenwissenschaft zum maschinellen Lernen - Scaling Python with Dask: From Data Science to Machine Learning

Die Werke des Autors wurden von folgenden Verlagen veröffentlicht:

© Book1 Group - Alle Rechte vorbehalten.
Der Inhalt dieser Seite darf weder teilweise noch vollständig ohne schriftliche Genehmigung des Eigentümers kopiert oder verwendet werden.
Letzte Änderung: 2024.11.13 22:11 (GMT)