Extract-Transform-Load in der Minimalvariante

In jedem BI – Projekt ist der ETL – Prozess genauso wichtig für den Projekterfolgt wie die Modelldefinition und die Visualisierung.

Extract

In diesem Schritt werden die notwendigen Daten aus den Vorsystemen gesammelt. Pentaho Data Integration (PDI) kann auf eine Vielzahl von Datenbanken zugreifen.

Manchmal ist der direkte Zugriff auf Datenbanken nicht erwünscht, dann ist eine Schnittstelle zum Vorsystem notwendig, bei der das Vorsystem die Daten selektiert und bereitstellt, Pentaho Data Integration übernimmt die Daten und protokolliert und archiviert die Schnittstellendatei.

Transform

Die vorhandene Information wird in dieser Stufe in die richtige Form gebacht. Als Tabellenstruktur wird erwartet:

  • eine Faktentabelle mit Werten und mit immer einem Feld für die Dimensionen
  • für jede Dimension zumindest eine Tabelle, aus der eine Hierarchie aufgebaut werden kann

Neben dem Aufbau der Tabellenstruktur ist es hilfreich, wenn Kennzahlen gleich jetzt berechnet werden und als Wert abgespeichert werden. Dadurch ist später beim OLAP – Würfel dafür keine Berechnung mehr notwendig.

 

Load

Das Mondrian OLAP Schema in Pentaho ist ein relationales OLAP (ROLAP), d.h. die Information ist in relationalen Datenbanken abgespeichert. Die Berechnungen erfolgten alle In-Memory, wenn eine aggregierte Kennzahl mal berechnet wurde, bleibt sie vorerst im Cache.

Das heißt aber auch, dass die Information nicht weiter in ein Datawarehouse geladen werden muss, wenn die Information bereits in relationalen Datenbanken verfügbar ist.

Eine Ausnahme bilden dazu Aggregationstabellen, die bei der Modelldefinition formuliert werden, und die bestimmte Aggregationsgrößen berechnen und abspeichern, sodass die Performance dadurch gesteigert wird.