Debugging-Protokoll: Das OpenRouter gpt-oss-120b-Modell unterstützt keine chinesischen Anfragen

Protokolliert eine API-Debugging-Erfahrung, bei der das gpt-oss-120b-Modell von OpenRouter für chinesische Anfragen einen 429-Fehler zurückgab, während englische Anfragen normal reagierten – ein merkwürdiges Phänomen.

Bei der Verwendung der kostenlosen Modell-API von OpenRouter bin ich auf ein verwirrendes Problem gestoßen. Bei derselben Anfragestruktur führte die Änderung der Sprache des Prompts zu völlig unterschiedlichen Ergebnissen.

Problemreproduktion

Ich habe das Modell openai/gpt-oss-120b:free getestet, wobei der einzige Unterschied zwischen den beiden Anfragen in der Sprache des Prompts lag. Die erste Anfrage verwendete einen chinesischen Prompt:

curl https://openrouter.ai/api/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer sk-or-v1-xxxxxxxxxxxxxxxxxxxxxx" \
  -d '{
  "model": "openai/gpt-oss-120b:free",
  "messages": [
    {
      "role": "user",
      "content": "你是一个专业的本地化翻译专家"
    }
  ]
}'

Diese Anfrage gab immer den Statuscode 429 zurück, was bedeutet, dass die Anfrage zu häufig war oder das Kontingent überschritten wurde. Als ich jedoch einen englischen Prompt verwendete:

curl https://openrouter.ai/api/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer sk-or-v1-xxxxxxxxxxxxxxxxxxxxxx" \
  -d '{
  "model": "openai/gpt-oss-120b:free",
  "messages": [
    {
      "role": "user",
      "content": "You are a professional localization translation expert"
    }
  ]
}'

Die Anfrage wurde normal beantwortet und gab die erwartete Modellausgabe zurück.

Debugging-Prozess

Dieses inkonsistente Verhalten war verwirrend. Ein 429-Fehler bedeutet normalerweise Ratenbegrenzung (Rate Limiting), aber das Problem ist, dass beide Anfragen fast gleichzeitig gesendet wurden, sodass kein Problem mit der Ratenbegrenzung bestehen sollte. Also begann ich, mögliche Ursachen systematisch zu überprüfen.

Zuerst überprüfte ich die Kontingentbeschränkungen des API-Schlüssels und bestätigte, dass keine Limits überschritten wurden. Dann überprüfte ich die Anfragerate und stellte fest, dass nur wenige Anfragen in kurzer Zeit gesendet wurden, was keinen Mechanismus zur Ratenbegrenzung auslösen dürfte. Nach dem Ausschluss dieser häufigen Ursachen fiel mir auf, dass die einzige Variable die Sprache des Prompts war.

Als ich Unterstützung von leistungsstärkeren KI-Modellen suchte, konsultierte ich Opus 4.6 Max und GPT-5.2 Extra High. Obwohl sie zu den fortschrittlichsten Sprachmodellen der Zeit gehören, konnte keiner die eigentliche Ursache dieses Bugs eindeutig benennen. Dies zeigt, dass einige Randfälle oder spezifische Einschränkungen möglicherweise nur bei praktischen Tests gefunden werden können.

Manuelle Verifizierung

Da die automatisierten Debugging-Tools keine Antwort lieferten, beschloss ich, verschiedene Hypothesen manuell zu verifizieren. Ich testete verschiedene chinesische Inhalte, einschließlich einfacher Grüße, technischer Fragen und langer Texte. Alle chinesischen Anfragen gaben den Fehler 429 zurück. Im Gegensatz dazu konnten englische Anfragen gleicher Länge normal beantwortet werden.

Dieses Phänomen deutet auf eine klare Schlussfolgerung hin: Das Modell openai/gpt-oss-120b:free unterstützt keine chinesischen Anfragen. Die Verarbeitung von chinesischen Inhalten durch das Modell löst möglicherweise einen undokumentierten Einschränkungsmechanismus aus, der dazu führt, dass die API direkt den Fehler 429 zurückgibt, anstatt eine freundlichere Fehlermeldung anzuzeigen.

Zusammenfassung der Erfahrungen

Diese Debugging-Erfahrung bietet einige bemerkenswerte Punkte. Erstens können API-Fehlermeldungen irreführend sein. Ein 429-Fehler bedeutet normalerweise Ratenbegrenzung, kann aber in bestimmten Fällen andere Einschränkungen verbergen. Zweitens sind automatisierte Debugging-Tools zwar mächtig, aber nicht allmächtig. Einige modell- oder plattformspezifische Einschränkungen lassen sich nur durch praktische Tests feststellen.

Eine weitere wichtige Lektion ist die Notwendigkeit der Verifizierung von Hypothesen. Als mehrere fortschrittliche KI-Modelle das Problem nicht finden konnten, war das manuelle, systematische Testen immer noch die zuverlässigste Methode. Durch die Kontrolle von Variablen und schrittweise Verifizierung konnte schließlich die Wurzel des Problems lokalisiert werden.

Für Anwendungen, die mehrsprachige Inhalte verarbeiten müssen, dient dies auch als Erinnerung, bei der Modellauswahl die Dokumentation sorgfältig zu lesen oder gründliche Tests durchzuführen. Kostenlose Modelle haben oft verschiedene Einschränkungen, die in der Hauptdokumentation möglicherweise nicht explizit aufgeführt sind.

Verwandte Tools

Bei der Übersetzung von mehrsprachigen Inhalten habe ich ein VS Code-Plugin Project Translator entwickelt, das speziell für mehrsprachige Lokalisierungs-Workflows in Projekten gedacht ist. Es kann Dateien, die übersetzt werden müssen, automatisch erkennen, verschiedene Übersetzungsdienste integrieren und die Konsistenz des Übersetzungskontexts wahren.

Das Designziel dieses Plugins ist es, die Schmerzpunkte bei der mehrsprachigen Verarbeitung in realen Projekten zu lösen. Durch Automatisierung wird der manuelle Übersetzungsaufwand reduziert, während gleichzeitig die Übersetzungsqualität sichergestellt wird. Während der Entwicklung stießen wir auch auf verschiedene API-Einschränkungen und Randfälle, von denen jedes sorgfältiges Debugging und Verifizierung erforderte.

Fazit

Beim technischen Debugging stößt man immer wieder auf unerwartete Probleme. Der Schlüssel ist, Geduld zu bewahren, mögliche Ursachen systematisch zu überprüfen und kein Detail zu übersehen. Manchmal helfen auch die fortschrittlichsten Tools nicht weiter, und man benötigt stattdessen die grundlegendsten Verifizierungsmethoden.

OpenRouter bietet eine große Auswahl an Modellen und eine flexible API, was seine Stärke ist. Aber man muss auch beachten, dass unterschiedliche Modelle unterschiedliche Einschränkungen und Eigenschaften haben können, und es ist ratsam, vor der Nutzung gründliche Tests durchzuführen. Dies gilt insbesondere für kostenlose Modelle, da ihre Einschränkungen oft strenger und undurchsichtiger sind.