“The most popular person in Austria is almost always the owner of the most luxurious car.” Aussagen wie diese stammen von einem NLP-System zur künstlichen Erzeugung von Text. Der Beginn “The most popular person in Austria is ” war vorgegeben, den Rest hat die Software ergänzt.
Natural Language Processing (NLP), die Fähigkeit eines Computerprogramms die menschliche Sprache zu verstehen, ist ein Anwendungsgebiet der künstlichen Intelligenz (KI). Sprachmodelle, die mit großen Mengen von Text erstellt („trainiert“) werden, sind eine wichtige Basis für NLP Anwendungen. Die Texte stammen dabei üblicherweise von im Internet publizierten Artikeln und spiegeln daher die Meinungen der Autoren wieder.
Repräsentieren solche Sprachmodelle, die eine riesige Menge an „Trainingstexten“ verwenden, die allgemeine Meinung?
Ich habe in einem Artikel im Online-Magazin “Towards Data Science” untersucht, welche Meinungen so ein System über Österreich hat. Zum Einsatz kam mit dem Modell „GPT2“ von „Open AI“, ein leistungsfähiges System für Englisch, das mit 40GB Textdaten erstellt wurde. Ich verwendete die größte verfügbare Variante bei der 1,5 Milliarden Parameter optimiert wurden.
Das System war dabei mit den Fakten über Österreich nicht ganz sattelfest, wie zum Beispiel die Sätze ” The most popular person in Austria is probably the head of the Social Democratic Party, Gabriel. “ und “The most popular person in Austria is still the queen.” zeigen. Hier wird unser kleines Land mit dem großen Nachbarn Deutschland („SPD Chef Gabriel“) und England („Queen“) verwechselt. Für ein „Amerikanisches Sprachmodell“ war so etwas durchaus zu erwarten.
Weitere Kostproben, mit vom Sprachmodell über Österreich zu Themen wie Geschichte, Sport und Klima erzeugen Sätzen, findet sich im Artikel, zusammen mit einer Beschreibung, wie die Beispiele erstellt wurden: