Datenverarbeitung mit Optimus: Aufbereitung von Big Data für Analysen und maschinelles Lernen mit Optimus unter Verwendung von Dask und PySpark

Bewertung:   (4,7 von 5)

Datenverarbeitung mit Optimus: Aufbereitung von Big Data für Analysen und maschinelles Lernen mit Optimus unter Verwendung von Dask und PySpark (Argenis Leon)

Leserbewertungen

Zusammenfassung:

Das Buch wird für seine umfassende Abdeckung der Datenverarbeitung mit Pandas und Optimus gelobt, was es zu einer wertvollen Ressource sowohl für Neulinge als auch für erfahrene Datenexperten macht. Es vereinfacht komplexe Datenaufgaben und verbessert die Effizienz der Arbeitsabläufe.

Vorteile:

Bietet eine detaillierte Anleitung zur Datenvorverarbeitung mit Pandas und Optimus.

Nachteile:

Hervorragend geeignet zum Erlernen und Beschleunigen der Datenverarbeitung und -transformation.

(basierend auf 4 Leserbewertungen)

Originaltitel:

Data Processing with Optimus: Supercharge big data preparation tasks for analytics and machine learning with Optimus using Dask and PySpark

Inhalt des Buches:

Dieser umfassende Leitfaden wurde vom Optimus-Kernteam verfasst und hilft Ihnen zu verstehen, wie Optimus die gesamte Datenverarbeitungslandschaft verbessert.

Hauptmerkmale:

⬤ Laden, Zusammenführen und Speichern von kleinen und großen Daten mit Optimus auf effiziente Weise.

⬤ Lernen Sie die Optimus-Funktionen für Datenanalyse, Feature Engineering, maschinelles Lernen, Kreuzvalidierung und NLP kennen.

⬤ Entdecken Sie, wie Optimus andere Data-Frame-Technologien verbessert und Ihnen hilft, Ihre Datenverarbeitungsaufgaben zu beschleunigen.

Buchbeschreibung:

Optimus ist eine Python-Bibliothek, die als einheitliche API für die Datenbereinigung, -verarbeitung und -zusammenführung dient. Sie kann für die Verarbeitung kleiner und großer Daten auf Ihrem lokalen Laptop oder auf entfernten Clustern mit CPUs oder GPUs verwendet werden.

Das Buch beginnt mit der Erläuterung der Interna von Optimus und wie es mit den vorhandenen Technologien zusammenarbeitet, um Ihre Datenverarbeitungsanforderungen zu erfüllen. Anschließend lernen Sie, wie Sie Optimus zum Laden und Speichern von Daten aus Textdatenformaten wie CSV- und JSON-Dateien, zum Erkunden von Binärdateien wie Excel und zur Verarbeitung von spaltenförmigen Daten mit Parquet, Avro und OCR verwenden können. Als Nächstes werden Sie sich mit dem Profiler und seinen Datentypen vertraut machen - eine einzigartige Funktion von Optimus Dataframe, die die Datenqualität unterstützt. Sie erfahren, wie Sie die in Optimus verfügbaren Diagramme wie Histogramme, Häufigkeitsdiagramme, Streu- und Boxdiagramme verwenden können und wie Sie Optimus mit Bibliotheken wie Plotly und Altair verbinden können. Sie werden auch in fortgeschrittene Anwendungen wie Feature Engineering, maschinelles Lernen, Kreuzvalidierung und Funktionen zur Verarbeitung natürlicher Sprache eintauchen und die Weiterentwicklungen in Optimus erkunden. Schließlich lernen Sie, wie Sie Funktionen zur Datenbereinigung und -transformation erstellen und eine hypothetische neue Datenverarbeitungsmaschine mit Optimus hinzufügen können.

Am Ende dieses Buches werden Sie in der Lage sein, Ihren Data-Science-Workflow mit Optimus problemlos zu verbessern.

Was Sie lernen werden:

⬤ Über 100 Datenverarbeitungsfunktionen über Spalten und andere stringähnliche Werte verwenden.

⬤ Umformung und Pivotierung von Daten, um die Ausgabe im gewünschten Format zu erhalten.

⬤ Finden Sie heraus, wie Sie Histogramme, Häufigkeitsdiagramme, Streudiagramme, Box-Plots und mehr erstellen können.

⬤ Verbinden Sie Optimus mit beliebten Python-Visualisierungsbibliotheken wie Plotly und Altair.

⬤ Anwendung von String-Clustering-Techniken zur Normalisierung von Strings.

⬤ Entdecken Sie Funktionen, um Daten schlechter Qualität zu untersuchen, zu korrigieren und zu entfernen.

⬤ Verwenden Sie fortgeschrittene Techniken, um Ausreißer aus Ihren Daten zu entfernen.

⬤ Hinzufügen von Engines und benutzerdefinierten Funktionen zum Bereinigen, Verarbeiten und Zusammenführen von Daten.

Für wen dieses Buch gedacht ist:

Dieses Buch richtet sich an Python-Entwickler, die Big Data erforschen, transformieren und für maschinelles Lernen, Analysen und Berichte vorbereiten möchten und dabei Optimus verwenden, eine einheitliche API für die Arbeit mit Pandas, Dask, cuDF, Dask-cuDF, Vaex und Spark. Python-Kenntnisse auf Anfängerniveau sind zwar nicht erforderlich, aber hilfreich. Grundlegende Kenntnisse der CLI sind erforderlich, um Optimus und seine Anforderungen zu installieren. Für die Verwendung von GPU-Technologien benötigen Sie eine NVIDIA-Grafikkarte, die mit der RAPIDS-Bibliothek von NVIDIA kompatibel ist, welche mit Windows 10 und Linux kompatibel ist.

Weitere Daten des Buches:

ISBN:9781801079563
Autor:
Verlag:
Sprache:Englisch
Einband:Taschenbuch

Kauf:

Derzeit verfügbar, auf Lager.

Ich kaufe es!

Weitere Bücher des Autors:

Datenverarbeitung mit Optimus: Aufbereitung von Big Data für Analysen und maschinelles Lernen mit...
Dieser umfassende Leitfaden wurde vom...
Datenverarbeitung mit Optimus: Aufbereitung von Big Data für Analysen und maschinelles Lernen mit Optimus unter Verwendung von Dask und PySpark - Data Processing with Optimus: Supercharge big data preparation tasks for analytics and machine learning with Optimus using Dask and PySpark

Die Werke des Autors wurden von folgenden Verlagen veröffentlicht:

© Book1 Group - Alle Rechte vorbehalten.
Der Inhalt dieser Seite darf weder teilweise noch vollständig ohne schriftliche Genehmigung des Eigentümers kopiert oder verwendet werden.
Letzte Änderung: 2024.11.13 22:11 (GMT)