Bewertung:

Das Buch bietet eine solide Einführung in das Feature-Engineering mit praktischen Python-Beispielen, was es zugänglich und sehr empfehlenswert macht. Einige Leser sind jedoch der Meinung, dass es an Tiefe mangelt, Probleme mit der Grafikqualität hat und angesichts seines Umfangs überteuert ist.
Vorteile:⬤ Leicht zu lesen
⬤ klare Beispiele in Python
⬤ gute Referenz für maschinelles Lernen
⬤ gut geschrieben und sehr empfehlenswert
⬤ deckt wesentliche Konzepte und Techniken im Feature Engineering ab.
⬤ Fühlt sich unfertig und zu kurz an
⬤ unterschiedliche Erklärungsniveaus
⬤ schlechte Qualität der handgezeichneten Grafiken
⬤ einige umstrittene Ratschläge
⬤ empfunden als überteuert für seine tatsächliche Länge.
(basierend auf 15 Leserbewertungen)
Feature Engineering for Machine Learning: Principles and Techniques for Data Scientists
Feature-Engineering ist ein entscheidender Schritt in der Pipeline des maschinellen Lernens, doch wird dieses Thema nur selten gesondert betrachtet. In diesem praktischen Buch lernen Sie Techniken zur Extraktion und Umwandlung von Merkmalen - den numerischen Darstellungen von Rohdaten - in Formate für Machine-Learning-Modelle. Jedes Kapitel führt Sie durch ein einzelnes Datenproblem, z. B. wie man Text- oder Bilddaten darstellt. Anhand dieser Beispiele werden die wichtigsten Prinzipien des Feature Engineering veranschaulicht.
Anstatt diese Prinzipien einfach nur zu lehren, konzentrieren sich die Autorinnen Alice Zheng und Amanda Casari auf die praktische Anwendung mit Übungen im gesamten Buch. Das abschließende Kapitel fasst alles zusammen, indem es einen realen, strukturierten Datensatz mit verschiedenen Feature-Engineering-Techniken in Angriff nimmt. Python-Pakete wie numpy, Pandas, Scikit-learn und Matplotlib werden in Codebeispielen verwendet.
Sie werden folgendes untersuchen:
⬤ Feature-Engineering für numerische Daten: Filterung, Binning, Skalierung, Log-Transformationen und Power-Transformationen.
⬤ Natürliche Texttechniken: Bag-of-Words, n-Gramme und Phrasenerkennung.
⬤ Häufigkeitsbasierte Filterung und Merkmalsskalierung zur Eliminierung uninformativer Merkmale.
⬤ Kodierungstechniken für kategoriale Variablen, einschließlich Feature-Hashing und Bin-Counting.
⬤ Modellbasierte Merkmalstechnik mit Hauptkomponentenanalyse.
⬤ Das Konzept des Modellstapelns unter Verwendung von k-means als Feature-Engineering-Technik.
⬤ Bildmerkmalextraktion mit manuellen und Deep-Learning-Techniken.