Bei der Erstellung von Chat-Bots, die die Absichten des Chatpartners mit Hilfe von Machine Learning Modellen erkennen, ist das sorgfältige und umfangreiche Training mit Daten eine wichtige und zeitraubende Angelegenheit. Die Qualität des virtuellen Gespräch-Partners hängt wesentlich von der Datenqualität ab. Eine Unterstützung durch einen möglichst automatisierten Service wäre also eine sehr nützliche Sache, da oft für hunderte von “Intents” jeweils hunderte Testsätze erzeugt werden müssen. Versteckt in einem Toolkit zur Erstellung von Sprachassistenten bin ich auf eine interessante solche Komponente gestoßen.
Die Entwicklungsplattform Snips (https://snips.ai/) ist ein Open-Source Tool, das es ermöglicht Sprach-Interfaces unabhängig von Plattformen wie Google Dialogflow (https://dialogflow.com/) oder Microsoft Luis (https://www.luis.ai/) zu entwickeln, und auf eigener Hardware zu betreiben. In den Entwicklungswerkzeugen ist Tool enthalten, das die Erzeugung von Trainings-Daten übernimmt. Dabei müssen einige Beispielsätze angegeben werden, um anschließend hunderte dazu passende weitere Sätze zu erhalten. Dahinter steckt allerdings keine KI-Software, die die Sätze erzeugt, sondern die Daten werden an Menschen weiter geleitet, die diese mit natürlicher Intelligenz erstellen, und über eine Schnittstelle in die Plattform übergeben.
Der Service ist derzeit nur für englische Texte verfügbar, und auch nicht kostenfrei. Ein Satz kommt auf 1$ oder weniger.
Eine Alternative für einen solchen Service kann man auch selbst mit Amazons “Mechanical Turk” (https://www.mturk.com/) realisieren, der eine Schnittstelle zu menschlichen “Workern” bietet.