Stammdaten - Konsolidierung bzw. Clusterung von Lieferanten und Materialien

Verfahren zur intelligenten Gruppierung von Stammdaten (im Folgenden auch als Konsolidierung bzw. Clusterung bezeichnet), wie z. B. Datensätze von Lieferanten, Warengruppen, Materialien und Dienstleistungen, basieren auf der Analyse von Textinformationen (z.B. Name des Lieferanten oder Bezeichnung des Materials) sowie der Analyse von weiteren metrischen, ordinalen oder nominal skalierten Datenfelder des Stammdatensatzes (auch als Merkmale bezeichet). Dies können Adressangaben und Bankinformationen sein oder Merkmale wie Gewicht, Abmessung, Farbe etc.

Die Orpheus-Algorithmen zur Konsolidierung / Clusterung von Stammdaten zerlegen nun die einzelnen Felder eines Stammdatensatzes in Textfragmente und Merkmalsausprägungen. Überflüssige, unvollständige oder unpräzise Bestandteile werden vollständig gelöscht und evtl. ersetzt.

So findet man z. B. in Lieferantennamen oftmals mehrdeutige Abkürzungen für Gesellschaftsformen vor. Neben der Standardabkürzung „GmbH“ gibt es oft auch „mbH“ oder „Gesellschaft mit beschr. Haftung“ etc. Äquivalenzklassen für solche Mehrdeutigkeiten erlauben es, all diese Abkürzungen und Begriffe auf einen gleichen Stamm, hier „GmbH“ zurückzuführen.

Nach den vorbereitenden Schritten liegt der aktuell betrachtet Stammdatensatz nun in der Matching-Struktur vor. In dieser Form wird er nun mit anderen Stammdatensätzen automatisiert verglichen („gematched“). Gleichen sich die Datensätze zu 100% so liegt ein sog. Dublikat vor. Sind sie ähnlich, aber nicht gleich, so entscheidet ein Clusteralgorithmus, ob beide Datensätze in einer konsolidierten Gruppe (dem Cluster) zusammengefasst werden sollten oder nicht.

Praktisches Beispiel zur Lieferanten-Konsolidierung

Schritt 1: Maschinelles Matching

Jeder Stammdatensatz wird vollautomatisch Feld für Feld mit den Inhalten andere relevanter Datensätze verglichen. Je übereinstimmendem Feld gibt es einen sog. Score, der sich im Idealfall – alle Felder sind dann identisch – zu 100 % addiert. Für einen zu prüfenden Lieferantendatensatz findet das Verfahren mithin mehrere Vorschläge, die sich in ihrem Score unterscheiden können. Solche Vorschläge, die eine hohe Übereinstimmung haben – etwa 90 % oder höher – lassen sich automatisch akzeptieren und mit dem Referenzdatensatz verknüpfen. Die anderen maschinellen Vorschläge, z. B. diejenigen mit einem Score zwischen 80 und 90 %, gehen in die Stufe 2.

Schritt 2: Scanning / Browsing

Ein Datenoperator von Orpheus (oder ein Mitarbeiten beim Kunden) sichtet Datensätze, die Vorschläge mit akzeptabler Qualität (z. B. Konfidenz 80-90 %) für potenzielle Zuordnungen zugewiesen bekamen. Er selektiert die Auswahl, die ihm am plausibelsten erscheint, oder er verwirft den ganzen Vorschlag und nimmt keine Zuordnung vor. In der Regel kann er über dieses halbautomatische Matching die Trefferquote aus dem ersten Schritt mit überschaubarem Aufwand signifikant erhöhen. Eine Durchführung dieses zweiten Schrittes lohnt sich deshalb in jedem Fall (sog. „80-20-Prinzip“).

DataCategorizer - Automatisiert konsolidieren, Bündelungspotenziale transparent aufdecken

Konsolidieren und Clustern mit dem DataCategorizer

Die DataCategorizer Applikation zur Konsolidierung und Clusterung von Stammdaten unterstützt den beschriebenen Prozess, um zum einen Dubletten von Stammdatensätzen (z.B. Lieferanten oder Materialien) zu finden, zum anderen um mehrere ähnliche Stammdatensätze zu gruppieren (bzw. zu konsolidieren / zu clustern) und in eine hierarchische Ordnung zu bringen.

Die Abbildung zeigt die Grundfunktionalität auf. Im Beispiel werden unterschiedliche Schreibweisen des gleichen Lieferanten „Firma Utilities GmbH“ als gleich erkannt und auf einem hierarchisch höher stehenden sog. „Parent“ (bzw. „Cluster“) verdichtet. Für das Reporting wird fortan meist der konsolidierte „Parent“ („Firma Utilities GmbH“) verwendet. Man kann jedoch auch die zugeordneten „Childs“ (bzw. „Cluster-Elemente“) analysieren, wenn eine konsolidierte Sicht nicht gewünscht ist.

Bei der Konsolidierung handelt es sich um ein zweistufiges Verfahren. In einem ersten Schritt vergleicht man zwei Lieferanten-Datensätze um Dubletten zu erkennen und diese gruppieren zu können. In einem zweiten Schritt versucht man Tochterunternehmen den jeweiligen Mutterunternehmen zuzuweisen. Die Tochterunternehmen bezeichnet man als „Child“, das Mutterunternehmen als „Parent“.

Um Dubletten zu erkennen, lassen sich verschiedene Vergleichs-Strategien anwenden. So ist beispielsweise denkbar, Lieferanten dann als gleich anzusehen, wenn ihr Name und ihre Adresse übereinstimmen. Alternativ kann man – falls diese vorhanden ist – auch die DUNS-Nummer (Dun & Bradstreet) als Vergleichsattribut heranziehen. Die Abbildung visualisiert die beiden Ansätze. Denkbar sind ebenfalls viele andere Varianten. Dem Anwender sind hier nur wenige Grenzen gesetzt, die sich z.B. aus den verfügbaren Vergleichsattributen ergeben.

DataCategorizer - Automatisiert konsolidieren, Bündelungspotenziale transparent aufdecken
DataCategorizer - Automatisiert konsolidieren, Bündelungspotenziale transparent aufdecken

Technologie „made for Big Data“

Das Konsolidierungs- und Cluster-Modul ist als Client-Server Anwendung konzipiert. Der Server vergleicht vollautomatisch viele tausend bis viele Millionen von Stammdaten (z.B. auch Lieferanten-Datensätze) und schlägt vor, welche Childs zu welchen Parents potenziell passen und wie diese am besten zu gruppieren sind.

Mit der Client-Anwendung kann der Benutzer sich die Ergebnisse der serverbasierten Konsolidierungsläufe ansehen und manuell Änderungen vornehmen. Über diese Applikation erfolgt somit das „Feintuning“ der Lieferantenhierarchien. Falls der Server keine zueinander passenden Datensätze finden konnte, so erlaubt es der Client, neue Hierarchien manuell anzulegen und Datensätze mit z.B. unterschiedlichen Namen einander zuzuordnen, da man nicht immer allein aufgrund des Namens gesellschaftsrechtliche Verflechtungen erkennen kann.

Mit Hilfe des DataCategorizer Konsolidierungs-Moduls lassen sich Lieferanten- und Material-Daten sowohl vollautomatisch als auch teilautomatisch clustern bzw. manuell konsolidieren.

Bei der Vollautomation sind keinerlei interaktive Eingriffe erforderlich. Auch der Start der Konsolidierung bzw. ihr periodischer Aufruf kann automatisiert werden. Die Interaktionen des Benutzers beschränken sich auf die Ergebniskontrolle und die spätere manuelle Nacharbeit.

DataCategorizer - Automatisiert konsolidieren, Bündelungspotenziale transparent aufdecken

Stammdaten-Hierarchisierung

Stammdaten-Hierarchisierung bedeutet, dass man unterschiedliche Ausprägungen bzw. Schreibweisen eines Lieferanten oder Materials in Gruppen („Cluster“) zusammenfasst bzw. konsolidiert und diese in einer Hierarchie ("Baum-Struktur") mit mehreren Ebenen einsortiert.

Für das Beispiel der Lieferanten führt dies dazu, dass man Mutter-Tochter-Verhältnisse abbilden kann. Eine zuverlässige Zuordnung ist allerdings manchmal nicht ohne den Rückgriff auf „externen Content“ möglich. Die Schreibweisen der Unternehmen unterscheiden sich in manchen Fällen erheblich, obwohl es sich um Gesellschaften eines Konzerns handelt. So ist die ATRADA AG z. B. eine Tochtergesellschaft der TELKOM AG. Da weder der Name noch die Adress-Informationen der beiden Konzerne auf dieses Verhältnis schließen lassen, hilft nur ein Blick in das Beteiligungsverzeichnis, z. B. über eine Internet-Recherche, oder die Beauftragung eines Spezialisten.

Auch Teile und Dienstleistungen lassen sich zu Äquivalenz-Klassen zusammenfassen. Produktfamilien gewisser Hersteller umfassen z. B. Baureihen von Computern, Möbeln oder Fahrzeugen. Die Zuordnung solcher Teile in Hierarchien ergänzt dann die Klassifizierung in einem Standardschema wie eCl@ss oder UN/SPSC. Der Aufwand hierfür ist jedoch recht hoch und rechtfertigt in den seltensten Fällen den Nutzen, der sich über die Auswertung dieser „Parallel-Dimension“ erschließt.

Stammdaten-Hierarchien erstellen und automatisch erstellte Vorschläge manuell nachbearbeiten

Die Konsolidierungs- und Cluster-Verfahren des DataCategorizer werden eingesetzt, um möglichst viele Stammdatensätze vollautomatisch zu sortieren, zu konsolidieren/clustern. Mit der Client-Anwendung hat man nun die Möglichkeit, zum einen die Server-Vorschläge zu validieren und einzelne Datensätze in eine Hierarchie einzusortieren. Zum anderen müssen die Datensätze untersucht werden, die nicht automatisch zugeordnet werden konnten.

DataCategorizer - Automatisiert konsolidieren, Bündelungspotenziale transparent aufdecken
  • Rent a Cube Manager

    Einkaufscontrolling ganzheitlich outsourcen wir managen Ihren Cube.

    Cube Manager ›

  • Technische Spezifikationen

    Technische Spezifikationen und Hardware Anforderungen des DataCategorizer.

    Mehr erfahren ›

  • Download Broschüre

    Laden Sie sich hier die Broschüre zum DataCategorizer herunter.

    Download Broschüre ›

  • Sprechen Sie
    uns an!

    Unseren Experten
    informieren Sie gerne,
    rufen Sie uns an.

    +49 911 / 149 913 41

Fragen Sie eine kostenlose Online-Präsentation zum DataCategorizer an.

Gerne beantworten wir Ihre Fragen und stellen Ihnen unsere Lösung in einer 30minütigen Präsentation vor. Nennen Sie uns zwei Wunschtermine und teilen Sie uns mit, wie Sie kontaktiert werden möchten. Wir setzen uns mit Ihnen in Verbindung!