Bewertung:

Derzeit gibt es keine Leserbewertungen. Die Bewertung basiert auf 3 Stimmen.
Data Cleaning
Die Datenqualität ist eines der wichtigsten Probleme im Datenmanagement, da unsaubere Daten oft zu ungenauen Datenanalyseergebnissen und falschen Geschäftsentscheidungen führen.
Schlechte Daten in Unternehmen und in der US-Regierung kosten Berichten zufolge jährlich Billionen von Dollar. Mehrere Umfragen zeigen, dass schmutzige Daten das häufigste Hindernis für Datenwissenschaftler sind. Es überrascht nicht, dass die Entwicklung effektiver und effizienter Datenbereinigungslösungen eine Herausforderung darstellt und mit tiefgreifenden theoretischen und technischen Problemen behaftet ist.
In diesem Buch geht es um Datenbereinigung, die sich auf alle Arten von Aufgaben und Aktivitäten zur Erkennung und Reparatur von Fehlern in den Daten bezieht. Anstatt sich auf eine bestimmte Datenbereinigungsaufgabe zu konzentrieren, geben wir einen Überblick über den gesamten Datenbereinigungsprozess, beschreiben verschiedene Fehlererkennungs- und Reparaturmethoden und versuchen, diese Vorschläge mit mehreren Taxonomien und Ansichten zu verankern. Wir befassen uns insbesondere mit vier der häufigsten und wichtigsten Datenbereinigungsaufgaben, nämlich der Erkennung von Ausreißern, der Datentransformation, der Fehlerbehebung (einschließlich der Imputation fehlender Werte) und der Datendeduplizierung. Aufgrund der zunehmenden Beliebtheit und Anwendbarkeit von Techniken des maschinellen Lernens enthalten wir außerdem ein Kapitel, in dem speziell untersucht wird, wie Techniken des maschinellen Lernens für die Datenbereinigung eingesetzt werden und wie die Datenbereinigung zur Verbesserung von Modellen des maschinellen Lernens genutzt wird.
Dieses Buch soll als nützliches Nachschlagewerk für Forscher und Praktiker dienen, die sich für den Bereich Datenqualität und Datenbereinigung interessieren. Es kann auch als Lehrbuch für einen Graduiertenkurs verwendet werden. Obwohl wir darauf abzielen, die neuesten Algorithmen und Techniken zu behandeln, erkennen wir an, dass die Datenbereinigung immer noch ein aktives Forschungsgebiet ist, und geben daher, wann immer es angebracht ist, zukünftige Forschungsrichtungen an.