Reif für KI? Auf die Daten kommt es an

Über den Erfolg von KI-Projekten entscheiden die Daten. Ein zentrales Gütekriterium ist dabei deren Reifegrad. Abhängig davon sind unterschiedliche KI-Methoden nutzbar, die Unternehmen verschiedene Möglichkeiten bieten: von einfachen Datenstrukturanalysen über die Erstellung von Prognosen bis hin zur vollständigen Automatisierung komplexer Prozesse. Eine Datenstrategie bildet die Basis für das Erreichen eines hohen Reifegrades und damit auch für den Erfolg von KI-Projekten.

In der Vergangenheit haben KI-Systeme vor allem mit Algorithmen gearbeitet, Expertensysteme sind dafür ein Beispiel. Algorithmen sind deterministisch strukturiert, vergleichbar mit fest verdrahteten Lösungswegen. Inzwischen steht in der KI aber die datengetriebene Verarbeitung im Vordergrund. Auf Basis von Neuronalen Netzen, Deep Learning oder Reinforcement Learning können so algorithmische Herausforderungen und Limitierungen bewältigt werden.

Datengetriebene Verarbeitungsprozesse setzen zunächst voraus, dass Daten in entsprechender Quantität und Qualität vorhanden sind. Je höher dabei der Reifegrad der Daten ist, desto größer ist auch der Mehrwert von KI-Systemen. Eine Erhöhung des Daten-Reifegrads erfolgt typischerweise in den Stufen Datenauswahl, Datenbereinigung und -verbesserung, Daten-Labeling und Datenaufbereitung für die Entwicklung von Reinforcement-Learning-Modellen. Beim Labeling werden Daten Zielwerte zugeordnet, also etwa einem Bild eine bestimmte Kategorie oder einer Stimmsequenz ein Gefühl. Das Reinforcement-Learning zielt darauf ab, auf Basis eines Belohnungssystems intelligente Agenten zu trainieren und für komplexe Entscheidungssituationen einzusetzen. Dabei können über sogenannte Monte-Carlo-Simulationen neue Entscheidungssituationen maschinell erzeugt und für ein erweitertes Training der Agenten genutzt werden, damit sie besser und sicherer in der Lösung komplexer Aufgaben werden.

Ein klassisches Beispiel für die Nutzung großer Datenmengen und moderner KI-Lernmethoden wie Reinforcement Learning ist die AlphaGO-Entwicklung von Google. Es war das erste System, das professionelle Spieler des chinesischen Brettspiels Go schlagen konnte. Dabei ist zu berücksichtigen, dass Go aufgrund der Brettgröße und der höheren Anzahl möglicher Spielzüge eine deutlich größere Komplexität als etwa Schach aufweist. Folglich musste Google auch extrem viel Zeit und Geld in die Entwicklung der Datenbasis stecken. Ausgehend von dieser Datenbasis lies Google für die Entwicklung der neuen Version AlphaGO Zero zwei Go-Agenten immer wieder gegeneinander spielen, um deren Fähigkeiten zu verbessern. Relativ schnell war der AlphaGO Zero Agent dem ursprünglichen AlphGO Agent bei Weitem überlegen.

Für Unternehmen empfiehlt sich bei der Verbesserung der Datenreife unter Kostengesichtspunkten folgende Vorgehensweise:

1. Systematische Erfassung der Daten.

2. Einkauf von vortrainierten Modellen und/oder gelabelten Datensätzen.

3. Aufbau eigener Ressourcen. Das Ergebnis dieses Prozesses sollten reife Daten sein, also Daten, mit denen man KI-Modelle trainieren kann – und zwar ohne weitere manuelle Tätigkeiten.

Drei KI-Verfahren im Überblick

„Aus Daten lernen“ lautet somit die Aufgabe. Abhängig vom jeweiligen Grad der Datenreife kann ein Unternehmen unterschiedliche KI-Verfahren nutzen: vom Unsupervised Learning mit relativ unreifen Daten über das Supervised Learning mit gelabelten Daten bis hin zum Reinforcement Learning mit einem realistischen Bewertungssystem und einer Datenbasis, die durch Monte-Carlo-Simulationen zusätzlich angereichert werden.

Beim Unsupervised Learning ist das Ziel, Daten für analytische Projekte anzureichern sowie Strukturen in den Daten zu identifizieren. Typische Anwendungsbereiche sind die Gruppierung von Daten, die Reduktion der Dimension, die Identifikation von Mustern, die Datenkompression sowie Verfahren des Natural Language Processing. Zu den genutzten Methoden und Algorithmen gehören unter anderem:

Clusteranalyse, insbesondere k-Means, Hierarchische Verfahren, Kohonen Self-Organizing Maps, Growing Neural Gas
Hauptkomponentenanalyse
Mehrdimensionale Skalierung
NLP-Verfahren, insbesondere TF-IDF (Term Frequency – Inverse Document Frequency), Topic Analysis

Das Supervised Learning zielt ab auf die Erstellung von Prognosen beziehungsweise auf das automatisierte Erkennen von Bildern, Sprache und Stimmungen. Typische Anwendungsbereiche sind die Klassifikationsanalysen, die Regressionsanalysen und die Zeitreihenanalyse. Verwendete Methoden und Algorithmen sind unter anderem:

Lineare/logistische Regression, Decision Tree
Neuronale Netze, Gradient Boosting, Random Forest
Deep Learning, CNN (Convolutional Neural Network), LSTM (Long Short-Term Memory)

Beim Reinforcement Learning letztlich geht es darum, komplexe Prozesse oder Handlungsabläufe vollständig zu automatisieren. Typische Aktivitäten betreffen die Klassifizierung und Bewertung von Situationen und Handlungsalternativen, die Modellierung von Belohnungen beziehungsweise Bestrafungen sowie die Entwicklung von KI-Agenten. Das Modell kann während der Anwendungsphase lernen, indem es immer wieder auch zufällig alternative Entscheidungen trifft und deren Belohnungen auswertet. Auch hier kommen unterschiedlichste Methoden und Algorithmen zum Einsatz, unter anderem auch abhängig davon, ob der Entscheidungsraum diskret oder stetig ist. Beispiele sind:

Monte-Carlo-Simulation
DQN (Deep Q-Learning)
SARSA (State-Action-Reward-State-Action)
DDPG (Deep Deterministic Policy Gradient)
On-/Off-Policy-Algorithmen
Model-Based/-Free-Algorithmen

Ein zentraler Unterschied zwischen dem Supervised Learning und Reinforcement Learning liegt darin, dass beim Supervised Learning zwei Phasen vorhanden sind, eine Trainings- und eine Prognosephase. Beim Reinforcement Learning hingegen verläuft das Lernen und Prognostizieren parallel. Dabei wird der Anteil des Lernens neuer Situationen zur Nutzung des bereits Gelernten (explore vs. exploit) im Laufe des Trainings sukzessive verringert.

Im Hinblick auf die Unterschiede der einzelnen KI-Verfahren und den jeweiligen Reifegrad der Daten muss ein Unternehmen aber auch einen wesentlichen Aspekt berücksichtigen: Je höher der Reifegrad ist, desto höher sind die Kosten. Die Datenaufbereitung der Unsupervised-Learning-Verfahren wird in der Regel von Data Engineers und Data Scientists vollautomatisiert durchgeführt. Der Kostenaspekt spielt hierbei nur eine untergeordnete Rolle.

Abhängig davon, ob das Labeling der Supervised-Learning-Verfahren automatisch oder manuell ausgeführt werden muss, können die Kosten für die Datenaufbereitung hierfür signifikant steigen. Insbesondere auch dann, wenn für das Labeling Domain-Know-how erforderlich ist, wie zum Beispiel bei den Modellen zur Spracherkennung. Amazon und Co. mussten in den letzten Jahren für die Entwicklung ihrer Sprachassistenten sehr viele Sprachwissenschaftler einstellen.

Die Datenaufbereitung für die Entwicklung eines Reinforcement-Agents ist in der Regel sehr aufwendig. Zum einen ist Domain-Know-how erforderlich, um ein realistisches Bewertungssystem entwickeln zu können. Zum anderen können Handlungsalternativen oft nur manuell oder teilautomatisiert klassifiziert und bewertet werden. Beides sind Kostentreiber in der Datenaufbereitung. Ein Beispiel hierfür sind die Kosten eines Systems zum autonomen Fahren. Der eigentliche Kostentreiber ist nicht die Entwicklung des Systems selbst, sondern die Aufbereitung und Bereitstellung der dafür notwendigen Daten.

Hinsichtlich des Kostenaspekts gibt es deshalb auch neue Ansätze in der Entwicklung von KI-Modellen. Ein Beispiel hierfür ist das Self-Supervised Learning beziehungsweise Weak Supervision. Supervised-Learning-Modelle setzen prinzipiell ein manuelles und damit zeitaufwendiges Daten-Labeling voraus, das infolgedessen mit hohen Kosten verbunden ist. Diese Herausforderung greift das Verfahren Weak Supervision auf. Dabei werden unstrukturierte oder unpräzise Daten automatisch gelabelt, sodass sie im Supervised Learning genutzt werden können. Eine Kostenreduzierung und Prozessbeschleunigung bei der Modellentwicklung sind dabei die Ergebnisse.

KI-Nutzungsmöglichkeiten anhand des Daten-Reifegrads

Doch wie korrespondiert der Reifegrad von Daten als Messgröße konkret mit realen KI-Anwendungsszenarien? Drei Kundenbeispiele von CGI aus der Fertigungs-, Versicherungs- und Finanzbranche zeigen die Unterschiede.

1. Daten einer Produktionsstraße

In der Produktionsstraße einer Fabrik fielen unterschiedliche Daten an. Dazu gehörten unter anderem Sensordaten der Maschinen, Daten aus der Wartung und Instandhaltung der Maschinen sowie Daten zur Auslastung, Kapazitätsplanung und zu Leerlaufphasen der Produktionsstraße. Zu Projektbeginn war der Reifegrad der Daten sehr gering, da zum Beispiel die Daten aus der Wartung und Instandhaltung nicht systematisch erfasst wurden und deswegen auch kein zeitlicher Zusammenhang zu den Sensordaten hergestellt werden konnte. Folglich konnten auch keine Predictive-Maintenance-Modelle entwickelt werden. CGI konzipierte für den Kunden eine langfristig angelegte Datenstrategie mit der Zielsetzung, einen möglichst hohen Reifegrad der Daten zu erzielen, um damit unter anderem auch Modelle für Predictive Maintenance entwickeln und implementieren und die Leerlaufzeiten optimieren zu können.

2. Kundendaten einer Versicherung

Zu den relevanten Kundendaten eines Versicherungsunternehmens gehörten demografische Daten, Vertragsdaten, die Kontakthistorie sowie Schadensmeldungen und -regulierungen. Bei einem geringen Reifegrad wurden lediglich operative Daten systematisch erfasst, nicht aber die Kontakthistorie oder das Kundenfeedback. Auch eine systematische Auswertung von Berichten, Bildern und Gutachten erfolgte nicht. Schon mit den operativen Daten konnten zwar Prognosemodelle zum Beispiel für Retention entwickelt werden, sie waren aber aufgrund fehlender Daten insbesondere über Kundenreaktionen sehr ungenau.

Auch für diesen Kunden entwickelte CGI eine Datenstrategie mit der Zielsetzung, Daten aus den unterschiedlichen Unternehmensbereichen systematisch erfassen und für KI-Anwendungen zusammenführen zu können – etwa hinsichtlich Kontakthistorie, Kundenfeedbacks und interner Regulierungsaufwände. Darüber hinaus wurden Projekte für die Analyse und Bewertung der Schadensmeldungen sowie für die Auswertung der Berichte und Gutachten unter Nutzung von NLP-Methoden initiiert. Auf dieser Basis konnten effiziente Modelle zur Ermittlung von Betrugswahrscheinlichkeiten und zur Schätzung der Schadenshöhe entwickelt werden.

3. Daten eines Anlageberaters

Für den Anlageberater eines Finanzinstitutes waren neben den Kundendaten vor allem auch Daten zur gesamtwirtschaftlichen Entwicklung und Informationen zu den Angeboten im eigenen Portfolio von Relevanz. Bei Letzterem musste er die Geschäfts- und Kursentwicklung der Portfolio-Unternehmen sowie aktuelle Medienberichte kennen. Bei einem ursprünglich geringen Reifegrad war keine systematische Datenauswertung vorhanden, sodass der Berater bei seinen Aufgaben nicht optimal unterstützt wurde. Für diesen Kunden hat CGI im Rahmen eines NLP-Projektes Pressemitteilungen und -erwähnungen ausgewertet und in einen zeitlichen Zusammenhang mit der Kursentwicklung gebracht, sodass der Einfluss von Veröffentlichungen auf die Kursentwicklung modelliert werden konnte.

Insgesamt kann mit KI-Methoden das enorme Potenzial interner und externer Datenquellen genutzt werden. Der Grad der Datenreife ist dabei von entscheidender Bedeutung. Wenn keine geeignete Datenbasis vorhanden ist, dann gibt es auch keine erfolgreiche KI-Umsetzung. Welche Möglichkeiten ein KI-System dann letztlich konkret bietet, hängt immer vom Reifegrad der Daten ab – er ist und bleibt das ausschlaggebende Kriterium für die Antwort auf die Frage: Reif für KI?

Dr. Uwe Müller

Executive Consultant Financial Services, Practice Manager for Big Data Analytics bei CGI.

Unsere Webinar-Empfehlung

Webinar: Beschaffung aktuell

Online-Plattformen

Die Digitalisierung veranlasst Unternehmen, bestehende Prozesse zu hinterfragen und eröffnet gleichzeitig neue Wege – auch im Einkauf. So bieten beispielsweise digitale Beschaffungsplattformen die Möglichkeit, Prozesse zu verbessern und zu automatisieren, Kosten zu senken und…

Zurück zur Startseite