Apache SUPERSET

Eine Datenanalyse und Visualisierungs Plattform

Apache Superset ist eine Business Intelligence Software / Plattform zur Analyse und zur Visualisierung von Daten,
wobei die Datenmengen bis in den Petabyte – Bereich reichen können.

Superset entstand aus einem Projekt bei Airbnb, das nun als Open Source Projekt weitergeführt wird.


Apache Software Foundation

Superset wurde 2017 in die Apache Software Foundation (ASF) aufgenommen, seit 2021 gehört die Software zu den Top200 – Projekten der Foundation. 

Damit ist Superset in guter Gesellschaft mit anderen BI – Produkten der Apache Software Foundation: Kafka (zur Verarbeitung von Streams), Beam (auch für Datenströme), Hop (ETL Software), Pinot(OLAP), Druid (Datenbank)

Zweck der Apache Software Foundation ist die Förderung und Entwicklung von Softwareprojekten, die sich der Open Source Idee verpflichtet fühlen. Dazu gibt es auch eine eigenen Apache – Lizenzform.

Zu den Sponsoren gehören die großen Softwarefirmen wie Amazon, Facebook, Microsoft, Google, Huawei, …


Apache Superset

die besonderen Merkmale von Superset sind die Stärke bei Charts und Dashboards, 
die Möglichkeiten zur Anbindungen an Datenbanken, 
die Flexbilität bei Ad-Hoc Analysen 
und die zukunftssichere Basis mit Python.

Apache Superset

Charts und Dashboards

Das ist die wesentliche Stärke von Superset: es existiert eine Vielzahl an Charttypen, die sich interaktiv designen lassen.

Datenbank - Anbindungen

Superset kann an sämtliche Datenbanken andocken: Amazon Redshift, Google Big Query, Apache Druid, Apache Hive, Elasticsearch, IBM Db2, Snowflake, Presto, PostgreSQL, MySQL, IBM Netezza, Apache Kylin, Apache Pinot, MariaDB, Vertica, Oracle, SAP Hana, Apache Solr, Azure MS SQL, ClickHouse, ...

Ad-hoc Analysen

Um flexibel Analysen zu erstellen, dient der SQL Editor (SQL - Lab), aus dem heraus auch Charts erzeugt werden können

Technik

Superset basiert - so wie Odoo - auf Python, sodass die Installation sehr einfach ist.

Apache Hop

Apache Hop ist das ETL – Instrument aus der Apache Software Foundation. Die Software entstand 2019 als ein Fork aus dem Kettle – Projekt.

Über die Sammlung (Pipelines) von einzelnen Übersetzungsschritten (Transforms) lassen sich Daten aus Quellen extrahieren, abändern und ergänzen und als Resultat abspeichern, ohne dass wesentliche Programmierkenntnisse notwendig sind.

Wenn zu Superset eigene ETL – Schritte notwendig sind, verwenden wir Apache Hop.

Clickhouse

Nachdem Superset selbst keine OLAP – Datenbank enthält, verwenden wir ClickHouse als OLAP – Datenbank.

Clickhouse wurde bei dem russischen Google-Pendant Yandex verwendet und ist seit 2016 als Open Source Software unter Apache 2 – Lizenz unterwegs.

die Stärke von ClickHouse ist die Geschwindigkeit der Aggregationen und Abfragen.