Große Datenmengen mit Python bewältigen: Ein umfassender Leitfaden zu Parallelität und Skalierbarkeit

Große Datenmengen mit Python bewältigen: Parallelisieren und Verteilen Sie Ihren Python-Code (T. Wolohan John)

Leserbewertungen

Zusammenfassung:

Das Buch wird für seine Fähigkeit gelobt, komplexe Themen in Python mit realen Anwendungen zu verbinden, was es für Lernende, die ihre Fähigkeiten verbessern wollen, vorteilhaft macht. Es wurde jedoch auch für seine mangelnde Tiefe, die Redundanz und die fehlende Abdeckung wesentlicher Tools wie Hadoop und Spark kritisiert.

Vorteile:

Hilfreich bei der Verknüpfung komplexer Themen, bietet Probleme aus der Praxis, vorteilhaft für den Arbeitsmarkt, gut für die Erweiterung des Grundwissens.

Nachteile:

Sich wiederholende und spärliche Informationen, mangelnde Tiefe in bestimmten Bereichen, Auslassungen bei wesentlichen Tools, einige Codierungsbeispiele sind schlecht oder unsinnig.

(basierend auf 3 Leserbewertungen)

Originaltitel:

Mastering Large Datasets with Python: Parallelize and Distribute Your Python Code

Inhalt des Buches:

Zusammenfassung.

Moderne Data-Science-Lösungen müssen sauber, einfach zu lesen und skalierbar sein. In Mastering Large Datasets with Python zeigt Ihnen der Autor J. T. Wolohan, wie Sie ein kleines Projekt mit einem funktional geprägten Ansatz für die Python-Programmierung skalieren können. Sie lernen Methoden und integrierte Python-Werkzeuge kennen, die sich für Übersichtlichkeit und Skalierbarkeit eignen, wie die hochleistungsfähige Parallelitätsmethode, sowie verteilte Technologien, die einen hohen Datendurchsatz ermöglichen. Die zahlreichen praktischen Übungen in diesem Lehrbuch vermitteln diese wesentlichen Fähigkeiten für jedes große Data-Science-Projekt.

Der Kauf des gedruckten Buches beinhaltet ein kostenloses eBook im PDF-, Kindle- und ePub-Format von Manning Publications.

Über die Technologie.

Programmiertechniken, die bei Daten in Laptop-Größe gut funktionieren, können bei der Anwendung auf große Dateien oder verteilte Datensätze ins Stocken geraten - oder sogar ganz versagen. Durch die Beherrschung des leistungsstarken Map-and-Reduce-Paradigmas und der Python-basierten Tools, die es unterstützen, können Sie datenzentrierte Anwendungen schreiben, die effizient skaliert werden können, ohne dass die Codebasis neu geschrieben werden muss, wenn sich Ihre Anforderungen ändern.

Über das Buch.

In Mastering Large Datasets with Python lernen Sie, Code zu schreiben, der mit Datensätzen jeder Größe umgehen kann. Sie beginnen mit Datensätzen in Laptop-Größe und lernen, wie Sie die Datenanalyse parallelisieren können, indem Sie große Aufgaben in kleinere Aufgaben aufteilen, die gleichzeitig ausgeführt werden können. Anschließend skalieren Sie dieselben Programme auf Datensätze in Industriegröße auf einem Cluster von Cloud-Servern. Mit dem Map-and-Reduce-Paradigma fest im Griff, erkunden Sie Tools wie Hadoop und PySpark, um riesige verteilte Datensätze effizient zu verarbeiten, die Entscheidungsfindung mit maschinellem Lernen zu beschleunigen und Ihre Datenspeicherung mit AWS S3 zu vereinfachen.

Der Inhalt.

⬤ Eine Einführung in das Paradigma von Map und Reduce.

⬤ Parallelisierung mit dem Multiprocessing-Modul und dem Pathos-Framework.

⬤ Hadoop und Spark für verteiltes Rechnen.

⬤ Ausführen von AWS-Aufträgen zur Verarbeitung großer Datensätze.

Über den Leser.

Für Python-Programmierer, die schneller mit mehr Daten arbeiten müssen.

Über den Autor.

J. T. Wolohan ist leitender Datenwissenschaftler bei Booz Allen Hamilton und Doktorand an der Indiana University, Bloomington.

Inhaltsverzeichnis:

TEIL 1.

1 ) Einführung.

2 ) Beschleunigung der Arbeit mit großen Datenmengen: Map und paralleles Rechnen.

3 ) Funktionspipelines für das Mapping komplexer Transformationen.

4 ) Verarbeitung großer Datenmengen mit "Lazy Workflows".

5 ) Kumulationsoperationen mit reduce.

6 ) Beschleunigung von Map und Reduce durch erweiterte Parallelisierung.

TEIL 2.

7 ) Die Verarbeitung wirklich großer Datenmengen mit Hadoop und Spark.

8 ) Best Practices für große Daten mit Apache Streaming und mrjob.

9 ) PageRank mit map and reduce in PySpark.

10 ) Schnellere Entscheidungsfindung mit maschinellem Lernen und PySpark.

TEIL 3.

11 ) Große Datenmengen in der Cloud mit Amazon Web Services und S3.

12 ) MapReduce in der Cloud mit Amazons Elastic MapReduce.

Weitere Daten des Buches:

ISBN:	9781617296239
Autor:	T. Wolohan John
Verlag:	Manning Pubn
Einband:	Taschenbuch
Erscheinungsjahr:	2020
Seitenzahl:	312

Kauf:

Derzeit verfügbar, auf Lager.

Große Datenmengen mit Python bewältigen: Parallelisieren und Verteilen Sie Ihren Python-Code

Leserbewertungen

Originaltitel:

Inhalt des Buches:

Weitere Daten des Buches:

Kauf:

Weitere Bücher des Autors:

Die Werke des Autors wurden von folgenden Verlagen veröffentlicht: