Warum Metriken zur Rückrufrate bei großen Modellen wichtig sind

Nachdem ich einige System-Prompt gelesen habe, stelle ich fest, dass sie meist sehr langatmig und nicht präzise formuliert sind. Einige Prompts dienen hauptsächlich dazu, dem Modell beizubringen, wie man etwas macht.

Außerdem habe ich gesehen, dass roo code einen Schalter enthält, um System-Prompts mehrfach an das Modell zu senden, was bedeutet, dass man Rollen und Befehle stärker verankern kann. Allerdings erhöht dies den Tokenverbrauch.

Vielleicht liegt es daran, dass wichtige Dinge mehrfach wiederholt werden müssen, um ihr Gewicht in der Berechnung zu erhöhen und die Wahrscheinlichkeit zu steigern, dass sie korrekt erkannt werden, was letztlich zu wahrscheinlicher richtigen Ergebnissen führt. Leider sind diese Ergebnisse dennoch nur wahrscheinlich korrekt.

Benutzer von Claude-Modellen und GPT5High, die diese Modelle länger genutzt haben, kennen das vielleicht: GPT5High ist zwar langsam, liefert aber eine sehr hohe Korrektheitsrate.

Könnte dies mit einer Rückrufrate von 100 % bei GPT5 zusammenhängen?

Als ich AGENTS.md verwendete, um GPT5 zu steuern, bemerkte ich, dass sehr präzise und knappe Anweisungen ausreichen, damit codex cli effizient arbeiten kann. Wenn ich jedoch Claude Code verwende, muss ich CLAUDE.md oft sehr ausführlich und „langatmig“ schreiben. Selbst dann ignoriert Claude manchmal explizite Anforderungen. Die Verbesserung erfordert nicht unbedingt die mehrfache Wiederholung einer Anforderung; die Verwendung unterschiedlicher Wörter wie „muss“ oder „wichtig“, sowie Klammern oder fettgedruckte Markdown-Texte (**), kann die Befolgung verstärken.

Das bedeutet, dass bei der Zusammenarbeit mit Claude-Modellen höhere Ansprüche an die Prompts gestellt werden. Schon geringfügige Änderungen der Wortwahl können die Leistung des Modells beeinflussen. Im Gegensatz dazu sind die Anforderungen an die Prompts bei GPT5 geringer. Solange die präzise Formulierung logisch konsistent ist, kann codex cli gut arbeiten. Gibt es logische Widersprüche, weist GPT5 darauf hin.

Mittlerweile bin ich mit der Zusammenarbeit mit Claude-Modellen immer unzufriedener geworden. Nicht, weil die Leistung schlecht wäre, sondern weil ich nach mehreren Fehlschlägen kein Vertrauen mehr in das Modell habe. Jedes Mal, wenn Claude einen Fehler macht, ändert es viele Codezeilen, und selbst die Anpassung von CLAUDE.md erfolgt sehr radikal. Wie sagt man so schön: Je mehr man redet, desto mehr Fehler passieren. Wie kann man sicherstellen, dass ein langer System-Prompt frei von Widersprüchen ist? Der Aufwand zur Überprüfung ist enorm und die kognitive Belastung sehr hoch.

Im Vergleich dazu scheint GPT5High echte Logik zu besitzen, was möglicherweise mit seiner hohen Rückrufrate zusammenhängt.