Bewertung:

Das Buch „Querying Databricks with Spark SQL“ bietet eine gründliche Abdeckung der grundlegenden und fortgeschrittenen Konzepte von Spark SQL. Es ist gut strukturiert mit Geschäftsszenarien zur Einführung in SQL-Abfragen und bietet klare Erklärungen. Einige Leser fanden jedoch Probleme mit den Anweisungen und der Organisation.
Vorteile:⬤ Umfassende Abdeckung von Spark SQL, geeignet für Anfänger und Fortgeschrittene
⬤ klare Struktur und Erklärungen
⬤ gut gestaltete Beispieldatenbank
⬤ wertvoller Abschnitt „Tricks und Fallen“
⬤ zufriedenstellende Lektüre für SQL-Profis, die fortgeschrittene Themen suchen.
⬤ Anweisungen für die Einrichtung von Datensätzen waren unklar
⬤ GitHub-Ressourcen waren schlecht organisiert
⬤ die Qualität der Buchbindung könnte verbessert werden
⬤ fehlende Themen wie SQL MERGE, UPDATE, DELETE-Anweisungen
⬤ anfängliches Problem mit Anweisungen für den Import von Datendateien.
(basierend auf 2 Leserbewertungen)
Querying Databricks with Spark SQL
Ein praktischer Leitfaden für die Verwendung von Spark SQL zur Durchführung komplexer Abfragen an Ihren Databricks-Daten
Hauptmerkmale
● Lernen Sie SQL von Grund auf, ohne dass Sie über Programmier- oder SQL-Kenntnisse verfügen müssen.
● Bauen Sie Ihre Kenntnisse und Fähigkeiten schrittweise auf, von grundlegenden Datenabfragen bis hin zu komplexen Analysen.
● Sammeln Sie praktische Erfahrungen mit SQL, die alle Wissensstufen vom Anfänger bis zum Experten abdecken.
Beschreibung
Databricks ist eine weit verbreitete Plattform für die Erstellung von Data Lakes. Innerhalb ihres Rahmens bietet sie Unterstützung für eine spezielle Version der Structured Query Language (SQL), die als Spark SQL bekannt ist. Wenn Sie daran interessiert sind, mehr über die Verwendung von Spark SQL zur Analyse von Daten in einem Data Lake zu erfahren, dann ist dieses Buch genau das Richtige für Sie.
Das Buch behandelt alles von grundlegenden Abfragen bis hin zu komplexen Datenverarbeitungsaufgaben. Es beginnt mit einer Einführung in SQL und Spark. Anschließend werden die Grundlagen von SQL behandelt, einschließlich Datentypen, Operatoren und Klauseln. In den nächsten Kapiteln geht es um Filterung, Aggregation und Berechnung. Außerdem werden Datums- und Zeitangaben, die Formatierung von Ausgaben und die Verwendung von Logik in Ihren Abfragen behandelt. Außerdem werden Tabellenverknüpfungen, Unterabfragen, abgeleitete Tabellen und allgemeine Tabellenausdrücke behandelt. Darüber hinaus werden korrelierte Unterabfragen, das Verbinden und Filtern von Datensätzen, die Verwendung von SQL in Berechnungen, die Segmentierung und Klassifizierung von Daten, rollierende Analysen und die Analyse von Daten im Zeitverlauf behandelt. Das Buch schließt mit einem Kapitel über erweiterte Datenpräsentation.
Am Ende des Buches werden Sie in der Lage sein, Spark SQL zu verwenden, um komplexe Datenanalyseaufgaben in Data Lakes durchzuführen.
Was Sie lernen werden
● Verwenden Sie Spark SQL, um Daten aus einem Data Lake zu lesen.
Lernen Sie, wie Sie Daten mit Spark SQL filtern, aggregieren und berechnen können.
Lernen Sie, wie Sie Tabellen verbinden, Unterabfragen verwenden und abgeleitete Tabellen in Spark SQL erstellen.
● Analysieren Sie Daten im Zeitverlauf mit Spark SQL, um Trends zu verfolgen und Muster in Daten zu erkennen.
● Präsentieren Sie Daten auf visuell ansprechende Weise mit Spark SQL.
Für wen dieses Buch gedacht ist
Dieses Buch richtet sich an alle, die lernen wollen, wie man SQL zur Analyse großer Datenmengen einsetzt. Ob Sie nun Datenanalyst, Student, Datenbankentwickler, Buchhalter, Geschäftsanalytiker, Datenwissenschaftler oder sonst jemand sind, der Erkenntnisse aus großen Datensätzen gewinnen muss, dieses Buch vermittelt Ihnen die Fähigkeiten, die Sie für diese Aufgabe benötigen.
Inhaltsübersicht
1. Schreiben grundlegender SQL-Abfragen
2. Filtern von Daten
3. Anwenden komplexer Filter auf Abfragen
4. Einfache Berechnungen
5. Aggregieren der Ausgabe
6. Arbeiten mit Daten in Databricks
7. Text in der Abfrageausgabe formatieren
8. Formatierung von Zahlen und Daten
9. Verwendung grundlegender Logik zur Verbesserung der Analyse
10. Verwendung mehrerer Tabellen bei der Abfrage von Daten
11. Erweiterte Tabellen-Joins verwenden
12. Unterabfragen
13. Abgeleitete Tabellen
14. Allgemeine Tabellenausdrücke
15. Korrelierte Unterabfragen
16. Manipulation von Datensätzen
17. Verwendung von SQL für fortgeschrittene Berechnungen
18. Segmentierung und Klassifizierung von Daten
19. Rollierende Analyse
20. Analysieren von Daten im Zeitverlauf
21. Komplexe Datenausgabe