Data Scientists sind heute weltweit gesuchte Spezialisten und gehören zu den am besten bezahlten Berufen in der IT. Gewiss, dieser zahlen- und datenorientierte Job ist nicht für jeden etwas, doch wer ihn ergreift, hatte sicher nicht vor Augen, einen großen Teil seiner Arbeitszeit mit der Korrektur von Schreibfehlern und Ähnlichem zu verbringen. Und doch ist genau dies Alltag für viele Datenwissenschaftler, was zur Folge hat, dass KI-Projekte länger dauern als geplant und mehr kosten. Gleichzeitig führt für Unternehmen aber auch kein Weg an dieser Datenhygiene vorbei, wenn sie planen, mit ihren gewachsenen Datenbeständen einen KIAlgorithmus lernen zu lassen. Denn "schlechte" Daten führen zu unbrauchbaren Auswertungen durch die künstliche Intelligenz. So geht unweigerlich ein großer Anteil der Kosten für ein solches Projekt in die Aufbereitung der Daten.
Forscher des MIT haben nun mit PClean eine Programmiersprache entwickelt, die helfen soll, die Aufräumarbeiten in den Daten zu automatisieren. Mit der Software entwickeln Programmierer oder Data Scientists einen wissensbasierten Ansatz, um die Daten automatisiert in einen Zustand zu bringen, der erlaubt, sie an den KI-Algorithmus zu übergeben.
Dies geht dabei weit über eine Software zur Korrektur von beispielsweise einfachen Schreibfehlern hinaus. Dies lässt sich an einem Beispiel gut verdeutlichen: Nehmen wir an, eine Versicherung hat im prä-digitalen Zeitalter Verträge zunächst auf Papier erfasst und später in Datenbanken eingepflegt. Von Millionen Versicherten leben schon rein statistisch eine große Anzahl in einem Ort namens "Hausen", dem in Deutschland weitverbreitetsten Ortsnamen. Nun fehlt jedoch bei einer gewissen Anzahl dieser Versicherten das zugehörige Bundesland – entweder wurde es bei Vertragsabschluss nicht erfasst oder ist in der Datenbank falsch hinterlegt
...Der komplette Artikel ist nur für Abonnenten des ADMIN Archiv-Abos verfügbar.