Apache SUPERSET
Eine Datenanalyse und Visualisierungs Plattform
Apache Superset ist eine Business Intelligence Software / Plattform zur Analyse und zur Visualisierung von Daten,
wobei die Datenmengen bis in den Petabyte – Bereich reichen können.
Superset entstand aus einem Projekt bei Airbnb, das nun als Open Source Projekt weitergeführt wird.
Superset wurde 2017 in die Apache Software Foundation (ASF) aufgenommen, seit 2021 gehört die Software zu den Top200 – Projekten der Foundation.
Damit ist Superset in guter Gesellschaft mit anderen BI – Produkten der Apache Software Foundation: Kafka (zur Verarbeitung von Streams), Beam (auch für Datenströme), Hop (ETL Software), Pinot(OLAP), Druid (Datenbank)
Zweck der Apache Software Foundation ist die Förderung und Entwicklung von Softwareprojekten, die sich der Open Source Idee verpflichtet fühlen. Dazu gibt es auch eine eigenen Apache – Lizenzform.
Zu den Sponsoren gehören die großen Softwarefirmen wie Amazon, Facebook, Microsoft, Google, Huawei, …
Apache Superset
Charts und Dashboards
Das ist die wesentliche Stärke von Superset: es existiert eine Vielzahl an Charttypen, die sich interaktiv designen lassen.
Datenbank - Anbindungen
Superset kann an sämtliche Datenbanken andocken: Amazon Redshift, Google Big Query, Apache Druid, Apache Hive, Elasticsearch, IBM Db2, Snowflake, Presto, PostgreSQL, MySQL, IBM Netezza, Apache Kylin, Apache Pinot, MariaDB, Vertica, Oracle, SAP Hana, Apache Solr, Azure MS SQL, ClickHouse, ...
Ad-hoc Analysen
Um flexibel Analysen zu erstellen, dient der SQL Editor (SQL - Lab), aus dem heraus auch Charts erzeugt werden können
Technik
Superset basiert - so wie Odoo - auf Python, sodass die Installation sehr einfach ist.
Apache Hop
Apache Hop ist das ETL – Instrument aus der Apache Software Foundation. Die Software entstand 2019 als ein Fork aus dem Kettle – Projekt.
Über die Sammlung (Pipelines) von einzelnen Übersetzungsschritten (Transforms) lassen sich Daten aus Quellen extrahieren, abändern und ergänzen und als Resultat abspeichern, ohne dass wesentliche Programmierkenntnisse notwendig sind.
Wenn zu Superset eigene ETL – Schritte notwendig sind, verwenden wir Apache Hop.
Clickhouse
Nachdem Superset selbst keine OLAP – Datenbank enthält, verwenden wir ClickHouse als OLAP – Datenbank.
Clickhouse wurde bei dem russischen Google-Pendant Yandex verwendet und ist seit 2016 als Open Source Software unter Apache 2 – Lizenz unterwegs.
die Stärke von ClickHouse ist die Geschwindigkeit der Aggregationen und Abfragen.