Als Data Science-Expertin stand Frau Dr. Patricia Sieber, Mitarbeiterin der TIQ Solutions GmbH, zu einem persönlichen Interview zur Verfügung und gab eine Einführung in den Bereich Data Analytics. Wir danken Frau Dr. Sieber für ihre Zeit und das aufschlussreiche Interview.
Welchen Bereich umfasst der Begriff Data Analytics allgemein?
Der Begriff Data Analytics ist weit gefasst. Zum einen kann die einfache Visualisierung von Daten gemeint sein, zum anderen der Versuch, einen Zusammenhang zwischen Daten zu erfassen, wie beispielsweise Korrelationen zwischen zwei verschiedenen Merkmalen von einem Datensatz. Die Frage ist hier, ob ein Zusammenhang besteht oder nicht. Wenn wir uns Fragen stellen wie: Gibt es Gruppen, die innerhalb der betrachteten Daten gebildet werden? Oder wie das Verhalten in der Zukunft aussehen kann, dann kann Data Analytics sehr komplex werden. Das sind dann Berechnungen, die der Computer mithilfe von Maschine Learning für uns erledigt. Data Analytics ist also ein sehr weitläufiger Begriff, der viel abdecken kann.
Was ist Advanced Analytics?
Bei Advanced Analytics geht es um komplexere Zusammenhänge. Hier kommt vor allem Maschine Learning zum Einsatz, um beispielsweise Informationen aus unseren Daten zu nutzen, um sie auf zukünftige Daten anzuwenden. Das heißt wenn wir für einen bestimmten Zeitraum Daten erfassen, wollen wir wissen, wie das Verhalten in Zukunft aussieht oder wie spätere Entscheidungen getroffen werden können. Bei Advanced Analytics kommen meistens Methoden zum Einsatz, bei denen wir den Computer rechnen lassen, um dann die resultierenden Modelle zu analysieren: Was passt zu den Daten? Welche Methode passt zu unserem Ziel und welche komplexeren Zusammenhänge können wir aus den Daten ziehen.
Was gibt es für Methoden?
Die größte Unterteilung ist die in Überwachtes und Unüberwachtes Lernen. Beim Überwachten Lernen wissen wir schon vorher, was bei unseren Ergebnissen herauskommt. Bei der Einteilung in vordefinierte Klassen können wir Modelle berechnen, die diese Einteilung für uns vornehmen. Das kann zum Beispiel die Einteilung von Mails in Spam und Nicht-Spam sein. Die Güte dieser Einteilung können wir dann aus unseren Daten erschließen und vergleichen, wie gut eine Methode funktioniert. Dazu teilen wir unsere Daten in zwei Datensätze. Mit dem einen trainieren wir das Modell, mit dem anderen bestimmen wir, wie gut das Modell für neue Daten funktioniert.
Wie stelle ich mir unüberwachtes Lernen vor?
Ein typisches Beispiel für Unüberwachtes Lernen ist Clustering. Ich habe beispielsweise Kundendaten mit verschiedenen Eigenschaften und möchte wissen, welche Kunden ein ähnliches Kaufverhalten haben. Wir möchten Personen aufgrund dieser Merkmale clustern, aber die Wichtigkeit der Merkmale soll sich der Computer selbst heraussuchen. Der Mensch könnte annehmen, dass die Kunden nach Geschlecht aufgeteilt werden. Das Modell könnte dagegen feststellen, dass es tatsächlich mehr verschiedene Gruppen gibt, weil sich weitere Merkmale ergeben, die für das Kaufverhalten eine größere Rolle spielen. Das wäre ein Beispiel, bei dem wir vorher nicht wissen wie sich diese Gruppen aufteilen und wie viele es sind, denn das entscheidet der Algorithmus selbst.