Bewertung:

Das Buch ist eine Ressource zum Erlernen von Hadoop und Big-Data-Analysen, wobei der Schwerpunkt sowohl auf grundlegenden als auch auf fortgeschrittenen Themen liegt. Es bietet zwar einen umfassenden Überblick über das Hadoop-Ökosystem und enthält praktische Beispiele, hat aber auch erhebliche Probleme mit der Genauigkeit des Codes und der Klarheit des Schreibens.
Vorteile:⬤ Umfassender Überblick über Hadoop und verwandte Technologien
⬤ sowohl für Anfänger als auch für Profis geeignet
⬤ Beispiele sind hilfreich für das praktische Lernen
⬤ auf dem neuesten Stand bei alten und neuen Technologien wie MapReduce und Spark
⬤ bietet Zitate für weiterführende Literatur.
⬤ Beispielcode stimmt oft nicht mit den Beschreibungen im Buch überein
⬤ Installationsanweisungen können verwirrend sein
⬤ Beispiele können falsche Ergebnisse liefern
⬤ Schreibstil wird als mangelhaft kritisiert
⬤ einige Informationen sind irreführend oder falsch.
(basierend auf 9 Leserbewertungen)
Data Analytics with Hadoop: An Introduction for Data Scientists
Sind Sie bereit, statistische und maschinelle Lernverfahren für große Datensätze zu nutzen? Dieser praktische Leitfaden zeigt Ihnen, warum das Hadoop-Ökosystem perfekt für diese Aufgabe ist.
Anstelle von Bereitstellung, Betrieb oder Softwareentwicklung, die normalerweise mit verteilter Datenverarbeitung in Verbindung gebracht werden, konzentrieren Sie sich auf bestimmte Analysen, die Sie erstellen können, auf die Data-Warehousing-Techniken, die Hadoop bietet, und auf Daten-Workflows höherer Ordnung, die dieses Framework erzeugen kann. Datenwissenschaftler und Analysten lernen, wie sie eine breite Palette von Techniken anwenden können, vom Schreiben von MapReduce- und Spark-Anwendungen mit Python bis hin zu fortgeschrittener Modellierung und Datenverwaltung mit Spark MLlib, Hive und HBase.
Sie lernen auch die analytischen Prozesse und Datensysteme kennen, die zum Aufbau und zur Stärkung von Datenprodukten zur Verfügung stehen, die große Datenmengen verarbeiten können - und sogar benötigen. ⬤ Verstehen Sie die Kernkonzepte von Hadoop und Cluster-Computing ⬤ Verwenden Sie Entwurfsmuster und parallele Analysealgorithmen, um verteilte Datenanalyseaufträge zu erstellen ⬤ Erfahren Sie mehr über Datenmanagement, Mining und Warehousing in einem verteilten Kontext mit Apache Hive und HBase ⬤ Verwenden Sie Sqoop und Apache Flume, um Daten aus relationalen Datenbanken aufzunehmen ⬤ Programmieren Sie komplexe Hadoop- und Spark-Anwendungen mit Apache Pig und Spark DataFrames ⬤ Durchführen Sie maschinelle Lerntechniken wie Klassifizierung, Clustering und kollaborative Filterung mit der MLlib von Spark.