Um die Daten kategorisieren zu können, muss in einem ersten Schritt ein entsprechendes Schema definiert werden. Wir benutzen als Basis normalerweise eCl@ss, wahlweise aber auch UNSPSC. Die Projekterfahrung hat aber gezeigt, dass diese Standards nicht unverändert verwendet werden sollten. eCl@ss umfasst 22.000 Kategorien, von denen nur ein Bruchteil relevant ist. Hinzu kommt, dass Unternehmen ihre Einkaufserfordernisse oft nicht in der Bezeichnung und der Hierarchie der Kategorien wiederfinden.
In einem ersten Schritt werden die notwendigen Kategorien identifiziert - erfahrungsgemäß zwischen 1000 und 2000 – und um individuelle Spezialeinträge ergänzt, sodass ein auf die Unternehmenserfordernisse maßgeschneiderter Warengruppenkatalog entsteht.
Das Kategorisierungsmodul verwendet zwei unterschiedliche Verfahren zur Kategorisierung der Daten. Zum einen werden explizite Regeln eingesetzt, zum anderen eine implizite Methode, die auf statistische Verfahren und Methoden künstlicher Intelligenz basiert.
Ausgangspunkt sind die extrahierten Rechnungsdaten, die um Informationen aus den Bestellungen angereichert wurden. Für die Kategorisierung stehen im Idealfall folgende Attribute zur Verfügung:
Bei indirektem Spend sind oft nur Lieferant und Sachkonto gefüllt. Rechnungstexte werden von der Buchführung nur sehr selten eingegeben.
Eine explizite Regel besteht aus einem Wenn-Teil und einem Dann-Teil, in dem die Kategorisierung festgelegt wird. Der Wenn-Teil umfasst entweder nur ein Attribut oder eine Kombination von mehreren Attributen. Auf diese Weise können bei Bedarf Regeln in einer sehr feinen Granularität erzeugt werden.
Die Attribute haben eine unterschiedliche Wertigkeit, was die Kategorisierung angeht. Material ist z.B. wesentlich genauer als der Lieferant oder das Sachkonto. Die Regeln werden deshalb in einer bestimmten Hierarchie angewendet, um möglichst immer die exakteste Kategorisierung zuzuweisen.
Die explizit kategorisierten Daten bilden wiederum die Basis für die implizite Kategorisierung. Hierzu werden alle Textinformationen eines Datensatzes in die Einzelwörter aufgespaltet und diesen die jeweilige Kategorie zugeordnet. Auf diese Weise entsteht eine riesige Matrix aus Wörtern und potenziellen Kategorien. Unter Verwendung von statistischen Methoden analysiert die implizite Kategorisierung erneut alle Datensätze auf Wortübereinstimmungen und errechnet daraus bewertete Vorschläge für eine Kategorie.
Ein automatischer Auswahlprozess entscheidet, ob der explizite oder der implizite Vorschlag genommen wird. Ist keine eindeutige Entscheidung möglich, kann in wichtigen Fällen auch eine manuelle Kategorisierung vorgenommen werden. Ein Teil der Datensätze, durchschnittlich zwischen 5 und 10%, können aufgrund unzureichender Daten nicht kategorisiert werden und fallen deshalb aus der Analyse heraus.
Nachdem beide Kategorisierungsläufe abgeschlossen sind, findet ein Lernprozess statt. Die Ergebnisse der impliziten Kategorisierung dienen als Feedback zur Verbesserung des expliziten Regelwerks. Die endgültige Kategorisierung dient wiederum als neue Trainingsstufe für zukünftige implizite Läufe. Auf diese Weise wird die Kategorisierungsqualität nachhaltig sichergestellt.
Auch wenn beide Kategorisierungsverfahren separat angewendet werden können, empfiehlt es sich, beide in Kombination einzusetzen, um ein optimales Ergebnis bei minimalem manuellen Aufwand zu erzielen.
Aus unserer Erfahrung können mit expliziten Regeln 20% der Rechnungen erfasst werden, die aber 80% des Spends ausmachen. Um die restlichen 80 % abzudecken müsste eine so große Anzahl feinstgranularer Regeln definiert werden. Dieser Aufwand lohnt sich nicht. Hier kommt die implizite Methode zum Tragen um das Ziel von 95% kategorisiertem Spend zu erreichen.
Hinzu kommt, dass die Qualität einer reinen expliziten Kategorisierung abnimmt, wenn das Regelwerk nicht kontinuierlich gepflegt wird.
Der Kategorisierungsgrad nimmt über die Zeit erst schleichend und dann massiv ab, bevor er sich auf einem relativ niedrigen Wert einpendelt. Dies liegt an der Tatsache, dass ständig neue Stammdaten hinzukommen, für die kontinuierlich neue Regeln angelegt werden müssten.
Unsere Erfahrung zeigt jedoch, dass diese sich oft nur unwesentlich von den alten Stammdaten unterscheiden. Es wurde z.B. für ein Material ein Lieferant gewechselt und dafür ein neuer Stammsatz angelegt. Die Bezeichnung stimmt aber weitestgehend überein, sie weicht nur in technischen Bezeichnungen ab.
Die explizite Kategorisierung würde diesen neuen Datensatz erst erfassen, wenn eine neue Regel angelegt ist. Die implizite Methode dagegen würde aufgrund von Wortübereinstimmungen die richtige Kategorie zuweisen.
Selbst bei minimalem Aufwand für die Pflege der impliziten und expliziten Regeln bleibt der Kategorisierungsgrad bei einer kombinierten Anwendung beider Verfahren wesentlich länger auf einem sehr hohen Niveau.