Für die Arbeit an Machine Learning Projekten ist üblicherweise der Einsatz einer Programmier- oder Script-Sprache mit einer Vielzahl von Programmbibliotheken für die gewählte Sprache nötig. Sehr häufig werden hier “Python” oder “R” verwendet, und Bibliotheken wie “Scikit Learn” und “Tensorflow“. Einen anderen Weg versucht die Plattform “BigML” zu gehen, indem sie ein User Interface bietet, das ermöglicht alle Schritte eines “Machine Learning” Projektes über Menüs zu steuern.
In Österreich wird das Produkt von “A1 digital” als Cloud-Lösung angeboten: https://machinelearning.a1.digital/
Der Workflow beginnt mit dem Import der Daten aus den unterschiedlichsten Quellen, und bietet auch einen schnellen Überblick über die Datentypen, Korrelationen und statistischen Verteilungen der Merkmale und Ziel-Variablen.
Nachdem Vorverarbeitung-Schritte, wie die Behandlung von fehlenden Daten, durchgeführt wurden, und die Daten in Trainings- und Testdaten geteilt wurden, können mit den verschiedenen Modellklassen Modelle berechnet werden. Hier bietet “BigML” für “Supervised Learning” die gängigsten Verfahren für Regressions- und Klassifikationsaufgaben an, wie zum Beispiel Entscheidungsbäume oder “Random Forests”, lineare Regression oder “Logistic Regression” und Neuronale Netze.
Auch diverse Methoden für “Unsupervised Learning”, wie zum Beispiel “Clusteranalyse”, Anomalie-Erkennung und Hauptkomponenten-Zerlegung befinden sich im “Werkzeugkasten” von BigML.
Mit den erstellten Modellen können, dann Vorhersagen getätigt werden, und es kann die Qualität der Modelle mit Testdaten bestimmt werden. Hat man ein zufriedenstellendes Modell zusammengebaut, dann kann es in Form von Programmcode für unterschiedliche Programmiersprachen heruntergeladen, und zum Beispiel in Software-Lösungen integriert werden.
Um auch mit wenig Vorwissen gut durch den Workflow zu kommen, ohne eine Vielzahl an Parametern einstellen zu müssen, werden an vielen Stellen in der Programmoberfläche “1-Click” Assistenten angeboten.
Die Plattform bietet eine Vielzahl an Methoden, die sehr bequem und Zeitsparend eingesetzt werden können. Ohne entsprechend gutem Vorwissen im Bereich “Machine Learning”, wird man aber auch hier zu keinen guten Resultaten kommen. Einen großen Vorteil der Plattform sehe ich darin, dass man gut strukturiert durch den Prozess geführt wird, und viele Visualisierungen die Interaktion mit der Software und das Verständnis der Daten erleichtern.
Eine kurze Einführung findet sich zum Beispiel unter: https://www.youtube.com/watch?v=w0jRGVwDHn4