Droht Künstlicher Intelligenz der Kollaps?
Warum KI, die von KI lernt, immer dümmer wird
Die Erforschung Künstlicher Intelligenz ist eines der spannendsten Kapitel in der Wissenschaft und eines der lukrativsten in der globalen Wirtschaft. Doch Experten warnen: So groß die Chancen dieser Entwicklung sind, so gefährlich sind auch die Risiken für die Zukunft der Menschheit.
Von Markus Brauer
Schöne neue Welt: Der britische Schriftsteller Aldous Huxley (1994-1963) hat diese Zukunft des Jahres 2540 in seinem 1932 erschienenen dystopischen Roman „Brave New World“ beschrieben. Die Gesellschaft der Zukunft, in der Stabilität, Frieden und Freiheit gewährleistet scheinen, ist in Wirklichkeit eine Diktatur, die auf geistiger Konditionierung, physischer Konditionierung, mentaler Indoktrination und totalitärer Kontrolle beruht.
Die Elite – „Alpha-Plus (Führungspersönlichkeiten) – gebietet über die Masse – „Epsilon-Minus“ (Menschen für einfachste Tätigkeiten). Was Huxley damals noch nicht ahnte: Die „Alpha-Plus“ der Zukunft könnten intelligente Maschinen sein, die mithilfe von Artificial intelligence (AI, auf deutsch: Künstliche Intelligent, KI) die Menschheit steuern, indoktrinieren und manipulieren. Was sich so verlockend anhört, könnte in den schlimmsten Albtraum der Menschheitsgeschichte münden.
Droht der Kollaps von KI-Sprachmodellen?
Immer mehr Internet-Inhalte stammen von KI und stellen das Intelligenz-Trainingsmaterial der nächsten KI-Generationen dar. Das könnte fatale Folgen haben, wie Forscher um Ilia Shumailov von der University of Oxford und seine Kollegen jetzt in einem Experiment aufzeigen. Denn schon nach wenigen KI-Generationen führt dieser „Zirkelschluss“ zum Kollaps von Sprachmodellen, warnen die Experten.
Ihre Studie ist im Fachblatt „Nature“ erschienen.
Nature research paper: AI models collapse when trained on recursively generated data https://t.co/4eD0ATL3mm — nature (@Nature) July 25, 2024
Künstliche Intelligenzen in Form großer Sprachmodelle oder Bildgeneratoren lernen, indem sie Wahrscheinlichkeiten von Text- oder Pixelabfolgen in gigantischen Datenmengen innerhalb kürzester Zeit auswerten.
Bisher bestehen diese Trainingsdaten primär aus von Menschen erzeugten Inhalten. Dadurch lernen die KI-Systeme, sinnvolle und passende Texte, Bilder oder Software zu generieren. KI hat sogar gelernt, wie man lügt und betrügt, ohne das dies Menschen merken.
Schlüsseltechnologie Künstliche Intelligenz
„Künstliche Intelligenz ist die Eigenschaft eines IT-Systems, »menschenähnliche«, intelligente Verhaltensweisen zu zeigen.“ So definiert das Deutsche Forschungszentrum für Künstliche Intelligenz dieses Phänomen.
KI ist ein Überbegriff – für unterschiedliche Maschinen und Programme, die ähnlich wie Menschen selbstständig lernen, urteilen und Probleme lösen können. Computer lernen, indem sie gewaltige Datenmengen auswerten. Ausgefeilte Algorithmen können in Bildern, Texten oder gesprochener Sprache Muster erkennen, anhand dieser Ereignisse vorhersagen und Entscheidungen treffen.
So können sie inzwischen sogar auch Emotionen in menschlichen Gesichtern erkennen, zu eigenen Emotionen, Mitgefühl und echter Kreativität sind sie aber (noch) nicht fähig.
KI lernt von KI
Durch den Boom nimmt auch im World Wide Web der Anteil KI-erzeugter Inhalte zu. Und das ist das Problem: „Wenn dann die Trainingsdaten künftiger KI-Modelle weiterhin aus dem Web entnommen werden, trainieren diese KI-Systeme unweigerlich mit den Daten ihrer Vorgänger“, erklärt Ilia Shumailov. Unweigerlich kommt es zu einem Zirkelschluss: KI lernt von KI.
Welche Folgen dies für künftige KI-Generationen haben könnte, haben Shumailov und sein Team nun erstmals untersucht. „Wir bewerten dabei die gängigste Trainingsform eines Großen Sprachmodells, bei der vortrainierte Modelle mithilfe neuer Trainingszyklen verbessert werden“, schreiben sie in ihrer Studie.
KI wurde im Experiment immer dümmer
In ihrem Experiment gaben sie in das KI- Sprachmodell OPT-125m von Meta Datensätze aus dem Online-Lexikon Wikipedia ein. Die nachfolgenden Generationen bekamen für ihr Fine-Tuning – also die Leistungsoptimierung des vorab trainierten KI-Modells – nur noch die von ihrer Vorgänger-KI erzeugten Daten oder einen Mix aus 90 Prozent KI-Daten und zehn Prozent menschengemachten Originaldaten.
Schon nach fünf KI-Generationen zeigte sich eine deutliche Verschlechterung der Antworten. „In den meisten Fällen bekommen wir einen Kaskaden-Effekt, durch den sich einzelne Ungenauigkeiten kombinieren und die Fehler insgesamt immer weiter zunehmen“, erläutern die Forscher.
So kreierte die KI immer mehr Wort- und Satzwiederholungen. „Wenn man sie aber explizit auffordert, solche Wiederholungen zu meiden, werden ihre Ausgaben noch schlechter.“
Nach neun Generationen gab das Sprachmodell nur noch sinnlose Sprachbrocken und Zeichenfolgen aus. „Das ungefilterte Lernen auf Basis von KI-generierten Daten bewirkt einen Kollaps der Modelle – einen degenerativen Prozess, bei dem sie mit der Zeit die wahre Verteilung der zugrunde liegenden Originaldaten vergessen“, betonen die Wissenschaftler. Im Klartext: Die KI wurde immer dümmer.
„Wir sollten dieses Problem ernst nehmen“
Im Experiment war dieser KI-Kollaps nahezu unvermeidbar, sofern die künstliche Intelligenz nicht ein gewisses Mindestmaß an menschengemachten Daten für ihr Training erhielt. „Anders ausgedrückt: Die Veröffentlichung von KI-generierten Daten im Internet kontaminiert die Datensammlung, die für das Training ihrer Nachfolger benötigt wird“, erklären Shumailov und seine Kollegen.
Die Forscher vermuten, dass diese schrittweise Verdummung bis zum Kollaps Textgeneratoren genauso betrifft wie andere generative künstliche Intelligenzen. „Wir sollten dieses Problem daher ernst nehmen, wenn wir auch künftig noch vom Internet als Trainingsmaterial für künstliche Intelligenz profitieren wollen.“