Hochleistungs-spark: Best Practices zur Optimierung von Apache Spark

Hochleistungs-spark: Best Practices für die Skalierung und Optimierung von Apache Spark (Holden Karau)

Leserbewertungen

Zusammenfassung:

Das Buch „High Performance Spark“ bietet eine detaillierte Untersuchung des Schreibens von effizientem Spark-Code, geeignet für Fachleute mit Vorkenntnissen in Scala und Spark. Es konzentriert sich auf die Leistungsoptimierung und bietet gründliche Codebeispiele, hauptsächlich in Scala. Während einige Benutzer es als gut strukturierte und informative Ressource empfanden, kritisierten andere die Zugänglichkeit für Anfänger und die starke Abhängigkeit von Scala.

Vorteile:

⬤ Umfassender Leitfaden zum Schreiben von leistungsstarkem Spark-Code.
⬤ Detaillierte Erklärungen von fortgeschrittenen Konzepten und Optimierungstechniken.
⬤ Gut strukturiert mit einer guten Balance zwischen Theorie und praktischen Anwendungen.
⬤ Reich an Codebeispielen, die das Verständnis verbessern, insbesondere für diejenigen, die mit Scala vertraut sind.
⬤ Klare Darstellung, Einfachheit und nützliche Diagramme.

Nachteile:

⬤ Nicht für Anfänger geeignet; setzt Vorkenntnisse in Spark und Scala voraus.
⬤ Der starke Fokus auf Scala kann Benutzer, die mit dieser Sprache nicht vertraut sind, abschrecken.
⬤ Einige Benutzer empfanden es als zu dicht und anspruchsvoll ohne eine praktische Spark-Umgebung.
⬤ Begrenzte Abdeckung bestimmter Themen, wie z. B. Spark-Streaming.
⬤ Einige empfanden es als langweilig, weil es zu viele Programmierbeispiele gab.

(basierend auf 27 Leserbewertungen)

Originaltitel:

High Performance Spark: Best Practices for Scaling and Optimizing Apache Spark

Inhalt des Buches:

Apache Spark ist erstaunlich, wenn alles klappt. Wenn Sie jedoch nicht die Leistungsverbesserungen gesehen haben, die Sie erwartet haben, oder sich immer noch nicht sicher genug fühlen, um Spark in der Produktion zu verwenden, ist dieses praktische Buch für Sie. Die Autoren Holden Karau und Rachel Warren demonstrieren Leistungsoptimierungen, damit Ihre Spark-Abfragen schneller laufen und größere Datenmengen verarbeiten können, während sie weniger Ressourcen verbrauchen.

Dieses Buch ist ideal für Softwareingenieure, Dateningenieure, Entwickler und Systemadministratoren, die mit großen Datenanwendungen arbeiten, und beschreibt Techniken, die die Kosten für die Dateninfrastruktur und die Arbeitszeit von Entwicklern reduzieren können. Sie werden nicht nur ein umfassenderes Verständnis von Spark erlangen, sondern auch lernen, wie Sie es zum Klingen bringen können.

Mit diesem Buch werden Sie Folgendes erkunden:

⬤ Wie die neuen Schnittstellen von Spark SQL die Leistung gegenüber der RDD-Datenstruktur von SQL verbessern.

⬤ Die Wahl zwischen Daten-Joins in Core Spark und Spark SQL.

⬤ Techniken, um das Beste aus Standard-RDD-Transformationen herauszuholen.

⬤ Wie man Leistungsprobleme im Schlüssel/Wertpaar-Paradigma von Spark umgehen kann.

⬤ Schreiben von leistungsstarkem Spark-Code ohne Scala oder die JVM.

⬤ Wie man bei der Anwendung von Verbesserungsvorschlägen auf Funktionalität und Leistung testet.

⬤ Verwendung von Spark MLlib und Spark ML-Bibliotheken für maschinelles Lernen.

⬤ Die Streaming-Komponenten von Spark und externe Community-Pakete.

Weitere Daten des Buches:

ISBN:	9781491943205
Autor:	Holden Karau
Verlag:	Oreilly Media
Einband:	Taschenbuch
Erscheinungsjahr:	2017
Seitenzahl:	358

Kauf:

Derzeit verfügbar, auf Lager.

Hochleistungs-spark: Best Practices für die Skalierung und Optimierung von Apache Spark

Leserbewertungen

Originaltitel:

Inhalt des Buches:

Weitere Daten des Buches:

Kauf:

Weitere Bücher des Autors:

Die Werke des Autors wurden von folgenden Verlagen veröffentlicht: