PySpark lernen: Erstellen datenintensiver Anwendungen mit Python und Spark 2.0

PySpark lernen: Erstellen Sie datenintensive Anwendungen lokal und stellen Sie sie in großem Umfang bereit, indem Sie die Kräfte von Python und Spark 2.0 kombinieren (Denny Lee)

Leserbewertungen

Zusammenfassung:

Das Buch über Spark und PySpark bietet ein einführendes Verständnis verschiedener Themen, aber es mangelt ihm an Tiefe und Vollständigkeit der Beispiele, was oft zu einer frustrierenden Erfahrung für die Leser führt. Es bietet zwar einen breiten Überblick, der für Neulinge geeignet ist, erfordert aber auch zusätzliche Ressourcen und Anstrengungen, um Lücken zu füllen.

Vorteile:

⬤ Freundlicher Ton und gut für Spark-Neulinge.
⬤ Deckt ein breites Spektrum an Themen ab, einschließlich Datenstrukturen und maschinelles Lernen.
⬤ Enthält Beispielcodes, die beim Lernen helfen können.
⬤ Guter Ausgangspunkt, um grundlegende Konzepte zu verstehen.

Nachteile:

⬤ Beispiele sind oft unvollständig oder erfordern externe Ressourcen, um sie vollständig zu verstehen, was es schwierig macht, sie als eigenständigen Leitfaden zu verwenden.
⬤ Mangelnde Tiefe der Diskussionen; viele Themen werden nur oberflächlich behandelt.
⬤ Code-Beispiele funktionieren nicht ohne weiteres und es fehlt der notwendige Kontext.
⬤ Schlechte Organisation und Paginierung in einigen Abschnitten erschweren das Lesen.
⬤ Allgemein wird das Buch als übereilt oder wenig kohärent empfunden.

(basierend auf 10 Leserbewertungen)

Originaltitel:

Learning PySpark: Build data-intensive applications locally and deploy at scale using the combined powers of Python and Spark 2.0

Inhalt des Buches:

Erstellen Sie datenintensive Anwendungen lokal und stellen Sie sie in großem Umfang bereit, indem Sie die kombinierte Leistung von Python und Spark 2 nutzen. 0 Über dieses Buch - Erfahren Sie, warum und wie Sie Python effizient für die Verarbeitung von Daten und die Erstellung von Machine-Learning-Modellen in Apache Spark 2 verwenden können.

0 - Entwickeln und implementieren Sie effiziente, skalierbare Echtzeit-Spark-Lösungen - Bringen Sie Ihr Verständnis für die Verwendung von Spark mit Python auf die nächste Stufe mit diesem Jump-Start-Guide Für wen dieses Buch gedacht ist Wenn Sie ein Python-Entwickler sind, der das Apache Spark 2. 0-Ökosystem kennenlernen möchten, ist dieses Buch genau das Richtige für Sie. Ein solides Verständnis von Python wird vorausgesetzt, um das Buch optimal nutzen zu können.

Vertrautheit mit Spark wäre nützlich, ist aber nicht zwingend erforderlich.

Was Sie lernen werden - Erfahren Sie mehr über Apache Spark und die Spark 2. 0-Architektur - Erstellen und Interagieren mit Spark DataFrames unter Verwendung von Spark SQL - Lernen Sie, wie Sie Graphen- und Deep-Learning-Probleme mit GraphFrames bzw.

TensorFrames lösen können - Lesen, Transformieren und Verstehen von Daten und deren Verwendung zum Trainieren von Modellen für maschinelles Lernen - Erstellen von Modellen für maschinelles Lernen mit MLlib und ML - Lernen Sie, wie Sie Ihre Anwendungen programmatisch mit spark-submit übermitteln können - Bereitstellen von lokal erstellten Anwendungen auf einem Cluster Im Detail Apache Spark ist ein Open-Source-Framework für effizientes Cluster-Computing mit einer starken Schnittstelle für Datenparallelität und Fehlertoleranz. Dieses Buch zeigt Ihnen, wie Sie die Leistungsfähigkeit von Python nutzen und sie im Spark-Ökosystem einsetzen können. Zu Beginn erhalten Sie ein solides Verständnis der Spark 2.

0-Architektur und wie man eine Python-Umgebung für Spark einrichtet. Sie werden sich mit den in PySpark verfügbaren Modulen vertraut machen. Sie lernen, wie Sie Daten mit RDDs und DataFrames abstrahieren können und verstehen die Streaming-Fähigkeiten von PySpark.

Außerdem erhalten Sie einen gründlichen Überblick über die Möglichkeiten des maschinellen Lernens in PySpark mit ML und MLlib, die Graphverarbeitung mit GraphFrames und die polyglotte Persistenz mit Blaze. Schließlich werden Sie lernen, wie Sie Ihre Anwendungen mit dem Befehl spark-submit in der Cloud bereitstellen können.

Am Ende dieses Buches werden Sie ein solides Verständnis der Spark-Python-API aufgebaut haben und wissen, wie sie zur Erstellung datenintensiver Anwendungen verwendet werden kann. Stil und Ansatz Dieses Buch verfolgt einen sehr umfassenden, schrittweisen Ansatz, damit Sie verstehen, wie das Spark-Ökosystem mit Python verwendet werden kann, um effiziente, skalierbare Lösungen zu entwickeln. Jedes Kapitel ist eigenständig und sehr verständlich geschrieben, wobei der Schwerpunkt sowohl auf dem Wie als auch auf dem Warum der einzelnen Konzepte liegt.

Weitere Daten des Buches:

ISBN:	9781786463708
Autor:	Denny Lee
Verlag:	Packt Pub
Einband:	Taschenbuch

Kauf:

Derzeit verfügbar, auf Lager.

PySpark lernen: Erstellen Sie datenintensive Anwendungen lokal und stellen Sie sie in großem Umfang bereit, indem Sie die Kräfte von Python und Spark 2.0 kombinieren

Leserbewertungen

Originaltitel:

Inhalt des Buches:

Weitere Daten des Buches:

Kauf:

Weitere Bücher des Autors:

Die Werke des Autors wurden von folgenden Verlagen veröffentlicht: