Ein Forschungsteam der University of California, Berkeley, hat eine neue KI-Trainingsmethode namens GEPA vorgestellt, die von der ICLR 2026 als Oral-Paper angenommen wurde. GEPA aktualisiert keine Modellgewichte, benötigt kein GPU-Training und nutzt lediglich einen einzelnen LLM, der „Trainingsprotokolle liest“, um die Prompts für das KI-System wiederholt umzuschreiben. Damit liegt GEPA bei 6 Aufgaben im Durchschnitt 6% vor gängigen Reinforcement-Learning-Methoden (GRPO), erreicht ein Spitzenplus von 20% und benötigt 35-mal weniger Trainingsversuche (rollouts). Nachdem die Forschung von der KI-Engineering-Community aufbereitet und in der X-Plattform diskutiert wurde, ist GEPA inzwischen in DSPy als erstklassiger Optimierer integriert.
Was GEPA macht: Trainingsprotokolle als Lehrmaterial nutzen, nicht nur auf Scores schauen
Der Workflow traditioneller Reinforcement-Learning-Methoden (z. B. GRPO) ist: Die KI führt eine Aufgabe einmal aus, bekommt basierend auf dem Ergebnis eine „+1 oder -1“-Punktzahl und passt dann die Modellgewichte wiederholt mithilfe dieser Punktzahl an. Das Problem: Der Ablauf, wie die KI einmal eine Aufgabe ausführt, umfasst typischerweise tausende Token an Inferenzschritten, Tool-Aufrufe und Fehlermeldungen – all diese reichen Details werden zu einem einzigen Score komprimiert und der Prozessinhalt geht verloren. Daher muss RL zehntausende Male laufen, um zu konvergieren.
GEPA geht genau umgekehrt vor: Nach jeder Aufgaben-Ausführung übergibt die KI die komplette Prozesskette (reasoning, Tool-Aufrufe, Fehlerprotokolle) vollständig an einen weiteren „Reflect-LLM“, der sie liest. Der Reflect-LLM verhält sich wie ein erfahrener Ingenieur, der Programmlogs studiert: Er identifiziert, wo genau ein Fehler auftrat, warum der Fehler auftrat, und wie der Prompt für die entsprechende Komponente angepasst werden sollte; anschließend schreibt er den Prompt für genau diese Komponente direkt um. Bei gleicher Aufgabenanzahl entnimmt GEPA damit deutlich mehr Signalmenge als RL aus dem einzelnen Score.
Warum es gewinnt: aus „Scoring“ wird „das ganze Prozessprotokoll lesen“
GEPA liegt bei 6 Aufgaben im Durchschnitt 6% vor GRPO; das Maximum beträgt 20%. Im Vergleich zu einem weiteren gängigen Prompt-Optimierer MIPROv2 schneidet GEPA ebenfalls um über 10% besser ab (bei AIME-2025-Mathematikaufgaben als Benchmark +12%). Am wichtigsten ist jedoch die Trainingskosten: Um die gleiche Leistung zu erreichen, benötigt GEPA nur 35-mal weniger rollouts (also einen vollständigen Lauf der Aufgabe).
Eine weitere Kennzahl: Nach der Integration von GEPA in DSPy kann der „Full Program Adapter“ das gesamte DSPy-Programm optimieren (inklusive signature, Module und Kontrollfluss). In MATH-Mathematikbenchmarks erreicht er 93% Genauigkeit und liegt damit deutlich über der ursprünglichen ChainOfThought-Schreibweise von DSPy, die 67% erreicht. GEPA zeigt zudem besonders starke Leistung in multi-module Workflows (AI-Agenten mit mehreren Modulen in Serie): Es kann gezielt das Prompt einer bestimmten fehlerhaften Modulkomponente neu schreiben, statt das gesamte System zu verändern.
Wer es zuerst nutzt: DSPy als erstklassiger Bürger, GitHub bereits Open Source
Der GEPA-Code ist auf GitHub veröffentlicht. Er ist als dspy.GEPA in das DSPy-Framework integriert und wird außerdem als eigenständige Python-Bibliothek veröffentlicht. Das Forschungsteam umfasst Partner aus UC Berkeley, Stanford, Notre Dame, Anthropic und weiteren Einrichtungen. Zu den Paper-Autoren gehören Matei Zaharia (Mitgründer von Databricks, Hauptautor von DSPy) und Omar Khattab (Hauptautor von DSPy).
Für die Entwickler-Community bietet GEPA eine neue Lösung für ein verbreitetes Problem: „Wir haben viele rollouts, aber wissen nicht, wie wir sie nutzen.“ Viele Teams haben bereits tausende oder zehntausende Agent-Task-Laufprotokolle gesammelt, aber abgesehen davon, dass man bei Fehlern ein paar Einträge durchblättert, fehlt eine systematische Methode, diese Protokolle in Modellverbesserungen umzuwandeln. Der nächste Beobachtungspunkt ist, ob GEPA in Unternehmen bei agentic Workflows (z. B. Kundenservice-Automatisierung, automatische Programmreparatur) praktisch eingeführt wird – und ob es entsprechende GEPA-Implementierungen geben wird, die unabhängig vom DSPy-Framework funktionieren.
Der Artikel „Berkeley GEPA erklärt“: Nicht Gewichte aktualisieren, und trotzdem lernt die KI neue Aufgaben – mit 35-mal weniger Trainingsaufwand und besser als RL – erschien zuerst in der Kette-news ABMedia.
Verwandte Artikel
Roblox bringt KI-Software auf den Markt, um Unity und Epic Games herauszufordern
Die US Navy unterzeichnet einen Vertrag über nahezu 100 Millionen US-Dollar mit Domino Data Lab für die Minenerkennung in der Straße von Hormus
XAI Grok führt benutzerdefinierte Stimmen ein: 2 Minuten zum Klonen, zweistufige Identitätsprüfung
OpenAI Codex Desktop-Version erhält Haustier-Funktion: 3 Zustandsanzeigen, schlüpft je nach verwendeter Sprache
MoonPay bringt am Freitag die MoonAgents-Karte auf den Markt: eine virtuelle Mastercard für KI-Agenten
OpenAI startet Codex Pets, einen KI-gestützten virtuellen Begleiter mit benutzerdefinierter Generierung