Bewertung:

Das Buch ist eine sehr empfehlenswerte Ressource für Dateningenieure und bietet fundiertes Wissen und praktische Anleitungen für den Aufbau effizienter Dateningestion-Pipelines mit Open-Source-Tools. Es deckt wesentliche Themen ab, darunter Datenermittlung, Ingestion-Prozesse, Fehlerbehandlung und Datenbeobachtung, so dass es sowohl für Anfänger als auch für erfahrene Profis geeignet ist.
Vorteile:Das Buch bietet praktische Erklärungen und Beispiele aus der Praxis, deckt ein breites Spektrum wesentlicher Themen der Datenaufnahme ab, konzentriert sich auf Open-Source-Tools, enthält detaillierte Anweisungen zur Fehlerbehandlung und -überwachung, bietet umfangreiche Beispiele mit Code und liefert wertvolle Einblicke in die Datenbeobachtung und -verwaltung.
Nachteile:Einige Leser wünschen sich mehr Details zu bestimmten populären Data-Engineering-Stacks wie Dbt und Snowflake.
(basierend auf 4 Leserbewertungen)
Data Ingestion with Python Cookbook: A practical guide to ingesting, monitoring, and identifying errors in the data ingestion process
Implementieren Sie Ihre Datenübernahme-Pipeline, orchestrieren und überwachen Sie sie effizient, um Daten- und Qualitätsverluste zu vermeiden.
Der Kauf des gedruckten oder Kindle-Buches beinhaltet ein kostenloses PDF-eBook
Hauptmerkmale:
⬤ Nutzen Sie Best Practices zur Erstellung einer Python- und PySpark-Pipeline für die Datenaufnahme.
⬤ Nahtlose Automatisierung und Orchestrierung Ihrer Datenpipelines mit Apache Airflow.
⬤ Erstellen Sie ein Überwachungs-Framework, indem Sie das Konzept der Datenbeobachtbarkeit in Ihre Pipelines integrieren.
Buchbeschreibung:
Data Ingestion with Python Cookbook bietet einen praktischen Ansatz für den Entwurf und die Implementierung von Data Ingestion Pipelines. Es präsentiert Beispiele aus der Praxis mit den bekanntesten Open-Source-Tools auf dem Markt, um häufig gestellte Fragen zu beantworten und Herausforderungen zu meistern.
Sie erhalten eine Einführung in den Entwurf und die Arbeit mit oder ohne Datenschemata sowie in die Erstellung von überwachten Pipelines mit Airflow und den Prinzipien der Datenbeobachtung, und das alles unter Einhaltung der Best Practices der Branche. Das Buch geht auch auf die Herausforderungen ein, die mit dem Lesen unterschiedlicher Datenquellen und Datenformate verbunden sind. Im Laufe des Buches werden Sie ein umfassenderes Verständnis für bewährte Verfahren der Fehlerprotokollierung, Techniken zur Fehlerbehebung, Datenorchestrierung, Überwachung und Speicherung von Protokollen für weitere Konsultationen erlangen.
Am Ende des Buches verfügen Sie über ein vollständig automatisiertes Set, mit dem Sie mühelos mit dem Ingesting und der Überwachung Ihrer Datenpipeline beginnen können und das eine nahtlose Integration mit den nachfolgenden Phasen des ETL-Prozesses ermöglicht.
Was Sie lernen werden:
⬤ Einführung der Datenbeobachtung mithilfe von Überwachungstools.
⬤ Automatisieren Sie Ihre Dateneingabe-Pipeline.
⬤ Lesen von analytischen und partitionierten Daten, unabhängig davon, ob sie auf einem Schema basieren oder nicht.
⬤ Fehlersuche und Vermeidung von Datenverlusten durch effiziente Datenüberwachung und -protokollierung.
⬤ Einrichten von Datenzugriffsrichtlinien mithilfe eines Data-Governance-Frameworks.
⬤ Aufbau eines Frameworks für die Datenorchestrierung zur Verbesserung der Datenqualität.
Für wen dieses Buch gedacht ist:
Dieses Buch richtet sich an Dateningenieure und Datenenthusiasten, die ein umfassendes Verständnis des Dateningestionsprozesses unter Verwendung beliebter Tools aus der Open-Source-Community suchen. Für Fortgeschrittene werden in diesem Buch die theoretischen Säulen der Data Governance behandelt und gleichzeitig praktische Beispiele für reale Szenarien vorgestellt, die Dateningenieuren häufig begegnen.