Por qué es importante la métrica de tasa de recuperación en los grandes modelos
Categories:
He leído algunos prompts del sistema, que en su mayoría son bastante extensos y poco concisos. Algunos prompts principalmente instruyen al modelo sobre cómo actuar.
Además, he observado en roo code que hay una opción para reenviar repetidamente el prompt del sistema al modelo, lo que indica que se puede reforzar el establecimiento del rol y el cumplimiento de instrucciones. Sin embargo, esto incrementa el consumo de tokens.
Quizás esto se deba a que las cosas importantes necesitan repetirse múltiples veces para aumentar su peso en los cálculos y mejorar la probabilidad de ser confirmadas, obteniendo así resultados más correctos. Lamentablemente, estos resultados siguen siendo probabilísticamente correctos.
Aquellas personas que han utilizado durante mucho tiempo el modelo Claude y gpt5high probablemente lo hayan notado; aunque gpt5high es muy lento, su tasa de acierto es extremadamente alta.
¿Podría estar relacionado con el hecho de que gpt5 alcance un 100% de tasa de recuperación?
Al usar AGENTS.md para dirigir las tareas de gpt5, descubrí que solo necesito expresiones muy concisas y precisas para que codex cli pueda trabajar. En cambio, al usar claude code, a menudo es necesario redactar CLAUDE.md de forma muy “verbosa”. Aún así, Claude a menudo ignora ciertos requisitos explícitos. La mejora no siempre requiere repetir una solicitud; usar diferentes palabras como “debe”, “importante”, así como paréntesis y negritas en markdown (**), también pueden reforzar el cumplimiento.
En otras palabras, al trabajar con el modelo Claude, los prompts requieren una mayor atención; pequeños cambios léxicos pueden afectar significativamente el desempeño del modelo. Por otro lado, al usar gpt5, los requisitos para los prompts son menos exigentes; siempre que la expresión sea concisa y no contenga contradicciones lógicas, codex cli puede desempeñarse muy bien. Si existen contradicciones lógicas, gpt5 las señalará.
Actualmente, me siento cada vez más insatisfecho con la colaboración de desarrollo con el modelo Claude. No es porque haga un mal trabajo, sino porque después de haber sido decepcionado varias veces, ya no confío en él. Cada vez que Claude falla, modifica muchas líneas de código, y también es extremadamente agresivo al modificar CLAUDE.md. Como se dice: “cuanto más se habla, más errores se cometen”. ¿Cómo garantizar que un prompt del sistema tan largo no tenga contradicciones internas? La carga de revisión es demasiado pesada y la carga mental también es considerable.
En comparación, gpt5high parece poseer una verdadera lógica, quizás relacionada con su alta tasa de recuperación.