Orpheus - Data Cleansing

ERP- oder Finanzsysteme liefern selten fehlerfreie Stamm- und Bewegungsdaten, die man problemlos und ohne aufwendige Bearbeitung durch ETL-Prozesse in BI-Systeme übernehmen kann. So trifft man z. B. bei Kunden- oder Lieferantennamen unterschiedliche Schreibweisen für die gleiche Firma an, die es zu harmonisieren gilt oder die Datensätze enthalten in Textfeldern Rechtschreibfehler bzw. falsche Angaben und Werte, die zu korrigieren sind. Bei Zahlenwerten treten häufig Ausreißer (durch Fehleingaben oder Umwandlungsfehler) auf, die später ganze Auswertungen unleserlich machen, sodass man aufgrund der Größenverhältnisse in den Grafiken diese später kaum interpretieren kann oder es existieren Datenlücken, die man interpolieren möchte.

Für diese und ähnliche Problemstellungen hat Orpheus Data Cleansing Module zum Harmonisieren, Bereinigen, Ändern und Konsolidieren von Stamm- und Bewegungsdaten entwickelt. Die eingesetzten Cleansing-Methoden variieren je nachdem, ob es sich um Strings, komplette Texte, Datumsangaben oder Zahlenwerte handelt. Die Software kann auch von technischen Laien eingesetzt werden und ist auch ohne komplizierte ETL-Software problemlos lauffähig. Man bereinigt die Daten, bevor sie an den eigentlichen ETL-Prozess übergeben werden.

Dem Data Cleansing vorgeschaltet ist ein Data Profiling, das u.a. folgende Aufgaben durchführt:

  • Erkennen von Datentypen und Kategorisierung in nominale/ordinale und metrische Daten
  • Berechnen und Visualisieren von Datenmengen, Wertebereichen und statistischen Kennzahlen
  • Markieren von potentiellen Ausreißern und Datenlücken
  • Berechnung und Markieren von Werte-Clustern
  • Analyse der Daten auf Korrelationen u.v.a.m.

Orpheus Data Cleansing stellt Ihnen für nominale und ordinale Daten (z.B. Strings, Texte) folgende Funktionen zur Verfügung:

  • Zerlegung von Strings bzw. Worten in einzelne Token bzw. Wortteile mithilfe sog. Trennregeln
  • Find&Replace Regeln und Gruppierung von Regeln
  • Find&Delete-Regeln und Gruppierung der Regeln
  • Stark korrelierende Attribute erkennen und löschen
  • Visualisierung der Datenlage und der Ergebnisse (vorher/nachher)
  • Simulation der Regeln bevor sie den Datenbestand verändern

Für Zahlenwerte stehen folgende Funktionen bereit:

  • Werte ändern (Einzelwerte)
  • Wertebereiche (Intervalle) anpassen und (optional) betroffene Datensätze löschen
  • Ausreißer erkennen und löschen bzw. ändern
  • Datenlücken erkennen und füllen
  • Stark korrelierende Kennzahlen/Attribute erkennen und löschen
  • Visualisierung der Datenlage und der Ergebnisse (vorher/nachher)
  • Simulation der Regeln bevor sie den Datenbestand verändern

Folgende Löschoperationen werden angeboten:

  • Spalten/Attribute löschen bzw. mit Löschkennzeichen versehen
  • Einzelne Datensätze löschen bzw. mit Löschkennzeichen versehen
  • Cluster (Datensatzgruppen) löschen bzw. mit Löschkennzeichen versehen
  • Simulation der Regeln bevor die den Datenbestand verändern