Data Engineering mit Python - Master Data Pipelines und Modelle

Datentechnik mit Python: Arbeiten Sie mit großen Datenmengen, um Datenmodelle zu entwerfen und Datenpipelines mit Python zu automatisieren (Paul Crickard)

Leserbewertungen

Zusammenfassung:

Das Buch „Data Engineering With Python“ ist laut Nutzerbewertungen eine gemischte Tüte mit Vor- und Nachteilen. Es bietet zwar eine solide Einführung in die wichtigsten Konzepte des Data Engineering und gilt als gut lesbar mit praktischen Beispielen, leidet aber unter erheblichen Problemen in Bezug auf die technische Genauigkeit und die Aktualität des Inhalts. Mehrere Leser empfanden den Fokus auf bestimmte Tools, insbesondere NiFi, angesichts des Buchtitels als irreführend, und viele berichteten von einer Fülle von Fehlern und schlechter Bearbeitung, die die praktische Anwendung des Materials behindern.

Vorteile:

⬤ Solide Einführung in Data-Engineering-Konzepte und Pipelining.
⬤ Praktische und anschauliche Beispiele, insbesondere mit Tools wie Pandas, Zookeeper, Kafka und Spark.
⬤ Hilfreich für angehende Software-Ingenieure und diejenigen, die mit der Datenanalyse vertraut sind.
⬤ Abdeckung einer Vielzahl von Tools und Konzepten im Data Engineering.
⬤ Leichte Lesbarkeit.

Nachteile:

⬤ Zahlreiche Fehler und Tippfehler im gesamten Buch, die zu Frustration führen.
⬤ Veraltete Inhalte und Installationsanweisungen beeinträchtigen die Benutzerfreundlichkeit erheblich.
⬤ Starker Fokus auf SQL mit minimaler Abdeckung von NoSQL-Datenbanken.
⬤ Lücken in der Anleitung, insbesondere bei der Einrichtung von Tools wie NiFi.
⬤ Irreführender Titel, da er NiFi gegenüber der Verwendung von Python hervorhebt.
⬤ Mangelnde Klarheit bei Beispielen und Referenzen, was es für Anfänger schwierig macht.

(basierend auf 27 Leserbewertungen)

Originaltitel:

Data Engineering with Python: Work with massive datasets to design data models and automate data pipelines using Python

Inhalt des Buches:

Erstellen, Überwachen und Verwalten von Echtzeit-Datenpipelines zum effizienten Aufbau einer Data-Engineering-Infrastruktur mithilfe von Open-Source-Apache-Projekten

Hauptmerkmale:

⬤ Erlernen Sie anhand von praktischen Beispielen Kenntnisse über Datenarchitekturen, Datenaufbereitung und Datenoptimierung.

⬤ Entwerfen Sie Datenmodelle und lernen Sie, wie man mit Python Daten extrahiert, transformiert und lädt (ETL).

⬤ Planen, automatisieren und überwachen Sie komplexe Datenpipelines in der Produktion.

Buchbeschreibung

Data Engineering bildet die Grundlage für Data Science und Analytik und ist ein wichtiger Bestandteil aller Unternehmen. Dieses Buch hilft Ihnen, verschiedene Tools und Methoden zu erkunden, die zum Verständnis des Data-Engineering-Prozesses mit Python verwendet werden.

Das Buch zeigt Ihnen, wie Sie Herausforderungen bewältigen können, die in verschiedenen Bereichen des Data Engineering auftreten. Zu Beginn erhalten Sie eine Einführung in die Grundlagen der Datentechnik sowie in die Technologien und Frameworks, die für den Aufbau von Datenpipelines für die Arbeit mit großen Datensätzen erforderlich sind. Sie lernen, wie Sie Daten transformieren und bereinigen und Analysen durchführen, um das Beste aus Ihren Daten herauszuholen. Im weiteren Verlauf lernen Sie, wie Sie mit Big Data unterschiedlicher Komplexität und Produktionsdatenbanken arbeiten und Datenpipelines erstellen. Anhand von Beispielen aus der Praxis bauen Sie Architekturen auf, auf denen Sie lernen, wie Sie Datenpipelines einsetzen können.

Am Ende dieses Python-Buches werden Sie ein klares Verständnis von Datenmodellierungstechniken erlangt haben und in der Lage sein, selbstbewusst Datenpipelines für die Nachverfolgung von Daten, die Durchführung von Qualitätsprüfungen und die Durchführung notwendiger Änderungen in der Produktion zu erstellen.

Was Sie lernen werden

⬤ Verstehen, wie Data Engineering die Data Science Workflows unterstützt.

⬤ Entdecken Sie, wie Sie Daten aus Dateien und Datenbanken extrahieren und anschließend bereinigen, transformieren und anreichern können.

⬤ Konfigurieren Sie Prozessoren für die Verarbeitung verschiedener Dateiformate sowie relationaler und NoSQL-Datenbanken.

⬤ Erfahren Sie, wie Sie eine Datenpipeline und ein Dashboard zur Visualisierung der Ergebnisse implementieren.

⬤ Nutzen Sie Staging und Validierung, um Daten zu prüfen, bevor sie im Lager landen.

⬤ Erstellen Sie Echtzeit-Pipelines mit Staging-Bereichen, die eine Validierung durchführen und mit Fehlern umgehen.

⬤ Machen Sie sich mit der Bereitstellung von Pipelines in der Produktionsumgebung vertraut.

Für wen ist dieses Buch gedacht?

Dieses Buch richtet sich an Datenanalysten, ETL-Entwickler und alle, die in den Bereich der Datentechnik einsteigen oder umsteigen oder ihr Wissen über Datentechnik mit Python auffrischen möchten. Dieses Buch ist auch für Studenten nützlich, die eine Karriere im Bereich Data Engineering planen, oder für IT-Fachleute, die sich auf einen Wechsel vorbereiten. Es sind keine Vorkenntnisse im Bereich Data Engineering erforderlich.

Weitere Daten des Buches:

ISBN:	9781839214189
Autor:	Paul Crickard
Verlag:	Packt Pub
Einband:	Taschenbuch

Kauf:

Derzeit verfügbar, auf Lager.

Datentechnik mit Python: Arbeiten Sie mit großen Datenmengen, um Datenmodelle zu entwerfen und Datenpipelines mit Python zu automatisieren

Leserbewertungen

Originaltitel:

Inhalt des Buches:

Weitere Daten des Buches:

Kauf:

Weitere Bücher des Autors:

Die Werke des Autors wurden von folgenden Verlagen veröffentlicht: