Die Chancen in den Daten entdecken!
Data Science – der wissenschaftliche Blick auf die eigenen Daten.
Was muss ich diesem Kunden bieten, damit er möglichst sicher bei mir abschließt?
Wann muss ich diese Maschine warten lassen, bevor ein Fehler einen teuren Schaden entstehen lässt?
Zweifellos gibt es dort Zusammenhänge: Der eine Kunde fühlt sich durch den Newsletter gut informiert – der andere belästigt und wendet sich ab. Für den einen Nutzer steht eine Fülle von Informationen an der Oberfläche der Software für eine geniale Software, die ihm wahrscheinlich alles ermöglicht – der andere Nutzer ist schlicht überfordert.
Die DataScience sucht und findet Zusammenhänge, die die Grundlage für Machine Learning und künstliche Intelligenz (KI) sein können. Sehr oft geht es um das Kategorisieren bzw. Vorhersagen von Ereignissen aus mehr oder weniger komplexen Zusammenhängen, die nicht – oder nur sehr aufwendig – mit einfachen wenn-dann Bedingungen abzubilden sind.
In diesen Vorhersagen steckt unglaubliches (auch wirtschaftliches) Potential! Es ist ein bisschen, wie in die Zukunft schauen zu können.
Doch was ist dazu nötig? Lange bevor man den Versuch starten kann etwas „in die Zukunft“ zu schauen, gibt es ganz handfeste Dinge zu tun: Die Daten, die häufig im Unternehmen in den unterschiedlichsten Formen und an den unterschiedlichsten Orten vorliegen, müssen irgendwie zusammengeführt werden. Nur so kann mit der Forschung nach dem „Gold in den eigenen Daten“ begonnen werden.
Hierfür muss die Softwarearchitektur schon früh darauf ausgelegt werden, z.B. über Event-Driven Architecture, Pub/Sub Verfahren oder Change Data Capture die Daten in einer Art Broadcast-Verfahren zur Verfügung zu stellen. Hierbei stehen mit Apache Kafka, Debezium, NATS Streaming u.v.m. moderne Lösungen zur Verfügung. Damit lassen sich die Daten nicht nur zwischen den verschiedenen Kontexten einer Architektur übertragen, sondern eben auch direkt über diverse Pipeline-Schritte in Datalake und Datawarehouse (DWH) übertragen.
DataScience kann nun auf den Daten forschen ohne ständig Anforderungen an andere Teams stellen zu müssen und sich die Daten aus allen Ecken der Softwarelandschaft zusammensuchen zu müssen.
Wesentliche Grundlage einer modernen Architektur sollte dabei idealerweise Domain-Driven Design sein. Durch die Nähe der Bezeichung der Datenobjekte (Aggregate) in Daten-Streams und Datalake/DWH zu der Sprache des Unternehmens lassen sich auch Fragestellungen der DataScience direkter übertragen.
Die 3 wichtigen Schritte zur berühmten KI sind hiernach:
Bereitstellung der Daten (Softwarearchitektur)
Zusammenführen und Aufbereiten der Daten (Datalake, ETL, Datawarehouse, Datenkatalog)
Direkter, simpler Zugang für DataScience und Entwickler (Forschung und direktes Deployment von Algorithmen)
Das Motto sollte lauten: DataScience (auch) in Entwicklerhände!