Bewertung:

Derzeit gibt es keine Leserbewertungen. Die Bewertung basiert auf 8 Stimmen.
Learning Apache Drill: Query and Analyze Distributed Data Sources with SQL
Machen Sie sich mit Apache Drill vertraut, einer erweiterbaren verteilten SQL-Abfrage-Engine, die riesige Datensätze in vielen gängigen Dateiformaten wie Parquet, JSON und CSV liest. Drill liest Daten in HDFS oder in Cloud-nativen Speichern wie S3 und arbeitet mit Hive-Metaspeichern sowie mit verteilten Datenbanken wie HBase, MongoDB und relationalen Datenbanken. Drill funktioniert überall: auf Ihrem Laptop oder in Ihrem größten Cluster.
In diesem praktischen Buch zeigen die Drill-Committer Charles Givre und Paul Rogers Analysten und Datenwissenschaftlern, wie sie mit diesem leistungsstarken Tool Rohdaten abfragen und analysieren können. Datenwissenschaftler verbringen heute etwa 80 % ihrer Zeit mit dem Sammeln und Bereinigen von Daten. In diesem Buch erfahren Sie, wie Drill Ihnen hilft, Daten effektiver zu analysieren und die Zeit bis zur Erkenntnis zu verkürzen.
⬤ Verwenden Sie Drill zum Bereinigen, Aufbereiten und Zusammenfassen von abgegrenzten Daten für die weitere Analyse.
⬤ Abfrage von Dateitypen wie Logfiles, Parquet, JSON und anderen komplexen Formaten.
⬤ Abfrage von Hadoop, relationalen Datenbanken, MongoDB und Kafka mit Standard-SQL.
⬤ Programmatische Verbindung zu Drill mit einer Vielzahl von Sprachen.
⬤ Drill auch bei schwierigen oder mehrdeutigen Dateiformaten verwenden.
⬤ Führen Sie anspruchsvolle Analysen durch, indem Sie die Funktionalität von Drill mit benutzerdefinierten Funktionen erweitern.
⬤ Erleichtern Sie die Datenanalyse für Netzwerksicherheit, Bildmetadaten und maschinelles Lernen.