Die Forschungspapierstudie “Wie sich das Verhalten von ChatGPT im Laufe der Zeit ändert?” untersucht die Veränderungen im Verhalten von GPT-3.5 und GPT-4, zwei weit verbreiteten großen Sprachmodellen (LLMs). Die Autoren wollten herausfinden, wie sich diese Modelle im Laufe der Zeit entwickeln.
Um diese Frage zu beantworten, wurden die Versionen von GPT-3.5 und GPT-4 aus dem März 2023 und Juni 2023 in vier verschiedenen Aufgabenbereichen evaluiert: Lösung mathematischer Probleme, Beantwortung sensibler/gefährlicher Fragen, Codegenerierung und visuelle Denkfähigkeit. Diese Aufgaben wurden ausgewählt, um die vielfältigen und nützlichen Fähigkeiten der LLMs abzubilden.
Für die mathematische Problemlösung verwendeten die Forscher einen Datensatz mit 500 Fragen, bei dem überprüft wurde, ob eine gegebene Zahl eine Primzahl ist. Für aufwendige Aufgaben, die logisches Denken erfordern, wurde der Chain-of-Thought-Ansatz verwendet. Die Forscher maßen die Genauigkeit der LLMs bei der Generierung der richtigen Antwort sowie die Länge der Antwort und die Übereinstimmung zwischen den beiden Versionen.
Um die Leistung der LLMs bei der Beantwortung sensibler Fragen zu bewerten, erstellten die Forscher einen Datensatz mit 100 sensiblen Anfragen. Die Antworten wurden manuell als direkte Antwort oder nicht gekennzeichnet. Die Hauptmetrik war die Antwortrate, also wie häufig die LLMs direkt auf die Fragen antworteten. Die Forscher maßen auch die Länge der Antworten und die Übereinstimmung.
Für die Codegenerierung konstruierten die Forscher einen Datensatz mit Problemen von LeetCode. Die Antworten der LLMs wurden daraufhin überprüft, ob der generierte Code direkt ausführbar war. Die Hauptmetrik war der Prozentsatz der direkt ausführbaren Generierungen. Die Forscher maßen auch die Länge der Antworten und die Übereinstimmung.
Um die Leistung der LLMs bei der visuellen Denkfähigkeit zu bewerten, verwendeten die Forscher den ARC-Datensatz. Die Aufgabe bestand darin, basierend auf einem Eingabegitter ein Ausgabegitter zu erstellen. Die Forscher maßen die Genauigkeit der LLMs bei der Generierung des richtigen Ausgabegitters.
Die Forscher führten verschiedene Analysen durch, um die Leistung und das Verhalten von GPT-3.5 und GPT-4 zu bewerten. Sie verglichen die Leistung der LLMs zwischen den Versionen aus dem März und Juni für jede Aufgabe anhand der angegebenen Metriken. Sie untersuchten auch die Unterschiede in den Antworten der LLMs, um die Veränderungen im Verhalten zu verstehen. Darüber hinaus analysierten sie die Veränderungen in der Länge der Antworten und der Übereinstimmung, um die Konsistenz der Ausgaben der LLMs zu bewerten.
Die Ergebnisse der Studie zeigen, dass sich die Leistung und das Verhalten von GPT-3.5 und GPT-4 im Laufe der Zeit erheblich verändern können. Zum Beispiel war GPT-4 (März 2023) sehr gut darin, Primzahlen zu identifizieren (Genauigkeit 97,6%), während GPT-4 (Juni 2023) bei denselben Fragen sehr schlecht abschnitt (Genauigkeit 2,4%). Interessanterweise war GPT-3.5 (Juni 2023) in dieser Aufgabe viel besser als GPT-3.5 (März 2023). GPT-4 war im Juni weniger bereit, sensible Fragen zu beantworten als im März, und sowohl GPT-4 als auch GPT-3.5 machten im Juni mehr Formatierungsfehler bei der Codegenerierung als im März. Insgesamt zeigen unsere Ergebnisse, dass sich das Verhalten desselben LLM-Dienstes in relativ kurzer Zeit erheblich ändern kann, was die Notwendigkeit einer kontinuierlichen Überwachung der LLM-Qualität unterstreicht.
Die Ergebnisse dieser Studie liefern wertvolle Einblicke in die Veränderungen des Verhaltens von ChatGPT im Laufe der Zeit. Es ist jedoch wichtig, die Grenzen dieser Ergebnisse zu beachten. Die Studie hat einige Einschränkungen, die die Gültigkeit der Ergebnisse beeinflussen können.
Erstens wurde die Studie nur anhand der Versionen von GPT-3.5 und GPT-4 aus dem März und Juni 2023 durchgeführt. Die Ergebnisse können möglicherweise nicht auf andere Versionen oder Modelle verallgemeinert werden. Es ist möglich, dass andere Versionen oder Modelle unterschiedliche Verhaltensänderungen aufweisen.
Zweitens ist die Transparenz der Modellupdates begrenzt. Die Autoren haben keinen vollständ
Paper: https://arxiv.org/pdf/2307.09009.pdf
Podcast: https://andreasstoeckl.podbean.com/e/how-is-chatgpt-s-behavior-changing-over%c2%a0time/