Datenbereinigung für effektive Datenwissenschaft: Die anderen 80 % der Arbeit mit Python, R und Befehlszeilentools erledigen

Bewertung:   (4,8 von 5)

Datenbereinigung für effektive Datenwissenschaft: Die anderen 80 % der Arbeit mit Python, R und Befehlszeilentools erledigen (David Mertz)

Leserbewertungen

Zusammenfassung:

Das Buch wird für seine umfassende Abdeckung von Datenbereinigungstechniken und die Bedeutung der Datenvorbereitung für die Analyse in der Datenwissenschaft gelobt. Die Leser schätzen den fesselnden Schreibstil des Autors, Dr. Mertz, und die Betonung des Denkprozesses hinter der Datenmanipulation anstelle des Auswendiglernens. Das Buch ist ein wertvolles Hilfsmittel sowohl für Neulinge als auch für erfahrene Praktiker der Datenwissenschaft.

Vorteile:

Umfassende Abdeckung von Datenbereinigungstechniken und Datenvorbereitung.
Fesselnder und klarer Schreibstil des Autors.
Betont den Denkprozess hinter der Datenmanipulation und nicht nur die Codierung.
Bietet zahlreiche Code-Beispiele in R, Python und Kommandozeilen-Tools.
Nützlich für Praktiker auf allen Ebenen, vom Anfänger bis zum Experten.
Richtlinien zur Versionierung von Daten und zur Reproduzierbarkeit von Datenmanipulationen.
Bietet Einblicke in verschiedene Datenformate und deren Handhabung.

Nachteile:

Einige Leser fanden die Gliederung der Themen weniger übersichtlich, da die Techniken oft innerhalb von User Stories und nicht als eigenständige Rezepte vorgestellt werden.
Das Buch konzentriert sich mehr auf tabellarische Daten und behandelt die Bereinigung von Text- und Bilddaten nicht ausreichend.
Einige Leser wünschten sich weniger kryptische Variablennamen in den mitgelieferten Codebeispielen.
Die Erwartung eines strukturierten Katalogs von Datenbereinigungsrezepten kann zu Enttäuschungen führen.

(basierend auf 15 Leserbewertungen)

Originaltitel:

Cleaning Data for Effective Data Science: Doing the other 80% of the work with Python, R, and command-line tools

Inhalt des Buches:

Ein umfassender Leitfaden für Datenwissenschaftler zur Beherrschung effektiver Datenbereinigungstools und -techniken

Hauptmerkmale:

⬤ Beherrschen Sie Datenbereinigungstechniken in einer sprachunabhängigen Weise.

⬤ Lernen Sie anhand faszinierender praktischer Beispiele aus zahlreichen Bereichen wie Biologie, Wetterdaten, Demografie, Physik, Zeitreihen und Bildverarbeitung.

⬤ Arbeiten Sie mit detaillierten, kommentierten und gut getesteten Codebeispielen in Python und R.

Buchbeschreibung:

Es ist so etwas wie eine Binsenweisheit in der Datenwissenschaft, der Datenanalyse oder dem maschinellen Lernen, dass der meiste Aufwand zum Erreichen des eigentlichen Ziels in der Bereinigung der Daten liegt. Dieses Buch, das in Davids typischem freundlichen und humorvollen Stil geschrieben ist, erörtert im Detail die wesentlichen Schritte, die in jeder produktiven Data-Science- oder Datenanalyse-Pipeline durchgeführt werden, und bereitet Sie auf die Datenvisualisierung und Modellierungsergebnisse vor.

Das Buch taucht in die praktische Anwendung von Tools und Techniken ein, die für die Datenaufnahme, die Erkennung von Anomalien, die Imputation von Werten und das Feature Engineering benötigt werden. Außerdem bietet es am Ende jedes Kapitels lange Übungen, um die erworbenen Fähigkeiten zu üben.

Sie werden sich zunächst mit dem Dateningestion von Datenformaten wie JSON, CSV, SQL RDBMS, HDF5, NoSQL-Datenbanken, Dateien in Bildformaten und binären serialisierten Datenstrukturen beschäftigen. Darüber hinaus bietet das Buch zahlreiche Beispieldatensätze und Datendateien, die zum Download und zur eigenständigen Erkundung zur Verfügung stehen.

Ausgehend von Formaten werden Sie fehlende Werte imputieren, unzuverlässige Daten und statistische Anomalien erkennen und synthetische Merkmale generieren, die für eine erfolgreiche Datenanalyse und Visualisierung erforderlich sind.

Am Ende dieses Buches werden Sie ein solides Verständnis des Datenbereinigungsprozesses erlangt haben, der für die Durchführung realer Data Science- und Machine Learning-Aufgaben erforderlich ist.

Was Sie lernen werden:

⬤ Problemdaten in Bezug auf einzelne Datenpunkte identifizieren.

⬤ Erkennen von Problemdaten in der systematischen "Form" der Daten.

⬤ Behebung von Datenintegritäts- und Hygieneproblemen.

⬤ Daten für Analyse- und maschinelle Lernaufgaben vorbereiten.

⬤ Werte in fehlende oder unzuverlässige Daten einfügen.

⬤ Synthetische Merkmale generieren, die sich besser für Data Science, Datenanalyse oder Visualisierungsziele eignen.

Für wen dieses Buch gedacht ist:

Dieses Buch richtet sich an Softwareentwickler, Datenwissenschaftler, angehende Datenwissenschaftler und Studenten, die sich für Datenanalyse oder wissenschaftliches Rechnen interessieren.

Grundlegende Vertrautheit mit Statistik, allgemeine Konzepte des maschinellen Lernens, Kenntnisse einer Programmiersprache (Python oder R) und ein gewisses Maß an Erfahrung mit Datenwissenschaft sind hilfreich. Ein Glossar, Verweise und freundliche Hinweise sollen allen Lesern helfen, sich auf den neuesten Stand zu bringen.

Der Text wird auch für fortgeschrittene Datenwissenschaftler hilfreich sein, die ihre Datenhygiene verbessern wollen und eine Auffrischung zu Fragen der Datenaufbereitung wünschen.

Weitere Daten des Buches:

ISBN:9781801071291
Autor:
Verlag:
Einband:Taschenbuch

Kauf:

Derzeit verfügbar, auf Lager.

Ich kaufe es!

Weitere Bücher des Autors:

Datenbereinigung für effektive Datenwissenschaft: Die anderen 80 % der Arbeit mit Python, R und...
Ein umfassender Leitfaden für Datenwissenschaftler...
Datenbereinigung für effektive Datenwissenschaft: Die anderen 80 % der Arbeit mit Python, R und Befehlszeilentools erledigen - Cleaning Data for Effective Data Science: Doing the other 80% of the work with Python, R, and command-line tools
Die rätselhaften Tücken der regulären Ausdrücke - The Puzzling Quirks of Regular...
Dieses unterhaltsame Rätselbuch für Softwareentwickler und Hobbyprogrammierer...
Die rätselhaften Tücken der regulären Ausdrücke - The Puzzling Quirks of Regular Expressions
Besserer Python-Code: Ein Leitfaden für angehende Experten - Better Python Code: A Guide for...
Weg vom Python-Code, der "meistens funktioniert",...
Besserer Python-Code: Ein Leitfaden für angehende Experten - Better Python Code: A Guide for Aspiring Experts

Die Werke des Autors wurden von folgenden Verlagen veröffentlicht:

© Book1 Group - Alle Rechte vorbehalten.
Der Inhalt dieser Seite darf weder teilweise noch vollständig ohne schriftliche Genehmigung des Eigentümers kopiert oder verwendet werden.
Letzte Änderung: 2024.11.13 22:11 (GMT)