Bewertung:

Das Buch über Apache Spark (in erster Linie mit Schwerpunkt auf PySpark) hat eine Reihe von Rezensionen erhalten, in denen der praxisorientierte Ansatz, die detaillierten Erklärungen und die umfangreichen Beispiele in Scala und Python hervorgehoben werden. Allerdings gibt es auch Kritik an der Organisation, der Codegenauigkeit und den Formatierungsproblemen beim Lesen auf bestimmten Geräten.
Vorteile:⬤ Praktischer Lernansatz
⬤ Umfassende Abdeckung der Spark-Konzepte
⬤ Detaillierte Codebeispiele in Scala und Python
⬤ Enthält ML-Abschnitte
⬤ Organisiertes Material zum Verständnis der Spark-Architektur
⬤ Gut für Lernende, die von anderen Programmiersprachen umsteigen
⬤ Nützlich als einzige Quelle für Spark in der Produktion.
⬤ Einige Code-Beispiele sind fehlerhaft oder müssen geändert werden
⬤ Organisation kann abgehackt sein
⬤ Formatierungsprobleme auf digitalen Plattformen (z.B. Kindle)
⬤ Seiten können von schlechter Druckqualität sein
⬤ einige finden es repetitiv
⬤ bietet möglicherweise nicht sofort umsetzbares Wissen für alle Leser.
(basierend auf 71 Leserbewertungen)
Spark: The Definitive Guide: Big Data Processing Made Simple
Lernen Sie in diesem umfassenden Handbuch, das von den Entwicklern dieses Open-Source-Cluster-Computing-Frameworks geschrieben wurde, wie man Apache Spark verwendet, einsetzt und wartet. Die Autoren Bill Chambers und Matei Zaharia legen den Schwerpunkt auf die Verbesserungen und neuen Funktionen in Spark 2. 0 gliedern die Autoren Bill Chambers und Matei Zaharia die Themen von Spark in verschiedene Abschnitte, die jeweils unterschiedliche Ziele haben.
Sie werden die grundlegenden Operationen und allgemeinen Funktionen der strukturierten APIs von Spark sowie Structured Streaming, eine neue High-Level-API für die Erstellung von End-to-End-Streaming-Anwendungen, kennenlernen. Entwickler und Systemadministratoren lernen die Grundlagen der Überwachung, des Tunings und der Fehlersuche in Spark kennen und erforschen Techniken des maschinellen Lernens und Szenarien für den Einsatz von MLlib, der skalierbaren Bibliothek für maschinelles Lernen von Spark.
⬤ Erhalten Sie einen sanften Überblick über Big Data und Spark.
⬤ Lernen Sie DataFrames, SQL und Datasets - die Kern-APIs von Spark - anhand von praktischen Beispielen kennen.
⬤ Tauchen Sie ein in die Low-Level-APIs von Spark, RDDs und die Ausführung von SQL und DataFrames.
⬤ Verstehen Sie, wie Spark auf einem Cluster ausgeführt wird.
⬤ Debuggen, Überwachen und Abstimmen von Spark-Clustern und -Anwendungen.
⬤ Lernen Sie die Leistung von Spark's Structured Streaming und MLlib für maschinelle Lernaufgaben kennen.
⬤ Erforschen Sie das breitere Spark-Ökosystem, einschließlich SparkR und Graph Analysis.
⬤ Untersuchen Sie die Spark-Bereitstellung, einschließlich der Abdeckung von Spark in der Cloud.